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随 着 互联 网 与 移动 终端 行业 的 迅猛 发 展 ， 企 业 和 个 体 对 数据 相关 服务 需求 不 断 提升 ， 以 


Apache Hadoop 为 代表 的 分 布 式 并 行 计算 技术 进 


步 发 展 ， 数 据 由 量变 而 引发 的 质变 正在 全 


球 范围 内 掀起 深刻 的 技术 与 商业 变革 。 在 产业 界 ， 以 数据 驱动 的 发 展 策略 也 已 逐渐 被 提升 到 
前 所 未 有 的 高 度 。 在 金融 、 电 信 、 房 地 产 和 众多 传统 领域 ， 沉 积 的 数据 价值 开始 被 重视 ， 这 
些 公司 逐渐 在 大 数据 领域 加 强 资金 和 研发 投入 。 在 学 术 界 ， 国 内 外 越 来 越 多 的 高 校 和 研究 机 
构 在 云 计算 和 大 数据 领域 投入 大 量 的 人 力 研究 大 数据 及 其 相关 技术 。 不 仅 如 此 ， 我 国政 府 提 


出 的 “中 国 制造 2025” 战 略 规 划 和 “互联 网 +” 
系 ， 这 更 预示 了 大 数据 技术 未 来 广阔 的 发 展 前 景 。 


的 概念 也 与 大 数据 技术 有 着 密 不 可 分 的 联 


大 数据 的 处 理 主要 依靠 分 布 式 并 行 处 理 技 术 。 本 书 主要 介绍 大 数据 分 析 平台 的 后 起 之 
秀 a Spark。 相 对 于 人 们 近年 来 熟知 的 Apache Hadoop，Apache Spark 具有 基于 内 存 


计算 、 适 合 迭 代 计 算 并 兼容 多 应 用 场景 的 特点 ， 


同时 它 还 能 兼容 Hadoop 生态 系统 中 的 组 


件 ， Hadoop 的 优点 。 经 过 短 短 6 年 的 飞跃 式 发 展 ，Spark 已 经 成 为 业内 颇具 发 展 
潜力 的 大 数据 分 析 平 台 之 一 。 近 两 年 召开 的 Spark Summit 峰会 ， 年 均 参 会 人 数 近 2000 
人 ， 业 内 对 Spark 的 研究 热情 进一步 提升 ，Spark 的 应 用 领域 也 在 不 断 扩 展 ， 包 括 医疗 、 


的 成 功 应 用 案例 。 


编者 基于 国内 外 的 研究 和 企业 项 目 实践 的 经 验 ， 基 于 截稿 时 最 新 的 Spark 1.4 版 来 介 


金融 、020 电 商 、 政 府 、 教 育 、 电 信 、 智 慧 城市 和 安全 等 ， 且 在 诸多 领域 都 已 经 有 Spark 


Spark 技术 的 应 


Na 


实践 和 最 新 动向 ， 让 读者 更 容易 地 迈 上 Spark 学 习 之 路 。 


本 书 是 国内 (包括 Github 社区 ) 较 新 的 基于 Spark 1.4 版 本 的 技术 书籍 ， 涵 盖 Spark 技 


术 的 环境 搭建 、RDD 实 操 应 用 、 内 部 机 制 、 调 优 


和 企业 应 用 等 内 容 ， 具 体 如 下 。 


1) 基于 Intellij IDEA 的 运行 、 开 发 和 编译 环境 的 详细 搭建 过 程 。 
2) 详细 介绍 Spark 技术 基础 概念 和 应 用 实践 。 


3) 基于 Spark 1.4 官方 文档 对 Spark 四 大 应 | 


框架 进行 解读 。 


4) 基于 最 新 源码 深入 前 析 ee 的 资源 调度 、 


5) 深入 解读 近 两 年 Spark 峰会 和 国内 企业 4 


任务 调度 和 shuffle 过 程 。 
分 享 的 典型 应 用 案例 。 


本 书 的 编写 系统 完整 ， 力 争 以 通俗 易 懂 的 语言 全 方位 精细 解读 Spark 技术 ， 本 书 主要 针 
对 大 数据 技术 初学 者 ， 包 括 但 不 限于 大 学 生 、 研 究 生 和 工程 师 。 此 外 ，Spark 应 用 开发 人 
员 、 运 维 工 程 师 和 开源 软件 爱好 者 也 可 以 将 本 书 作 为 参考 用 书 。 

本 书 共 分 为 概念 、 开 发 、 机 制 和 应 用 四 篇 ， 概 念 篇 介绍 Spark 的 背景 概念 和 环境 配置 方 


法 ， 开 发 篇 介绍 了 Spark 核心 开发 、 四 大 应 用 框架 


& 和 调 优 策 略 ， 机 制 篇 则 对 Spark 的 RDD、 


调度 和 shuffle 等 机 制 进 行 解读 ， 应 用 篇 针对 Spark 在 业界 的 典型 应 用 进行 曾 述 。 


对 于 初学 者 ， 建 议 先 学 习 Scala 语言 的 基本 语法 ， 并 从 第 1 章 起 顺序 阅读 ， 搭 建 好 开发 


环境 ， 边 学 边 进行 代码 实践 。 


篇 ， 即 


对 于 已 经 有 一 定 基础 的 读者 可 以 跳 过 概念 篇 直接 从 第 3 章 开 始 阅 读 ， 学 习 完 第 二 篇 天 


Spark 的 应 用 操作 后 可 以 通过 接着 学 习 第 


[发 


在 学 习 完 概 念 篇 之 后 就 可 以 进 
本 书 由 刘 驰 3 


2 ;二 
3 严 谍 


行 学 习 。 


FE 编 ， 参 与 编写 人 员 有 符 积 高 、 徐 闻 春 。 在 本 书 的 编 


三 篇 机 制 篇 来 加 深 理解 。 第 四 篇 比较 独立 ， 


的 态度 ， 力 求 精益 求 精 ， 但 错误 、 疏 漏 之 处 在 所 难免 ， 敬 请 


广大 读者 批评 指正 


写 过 程 中 ， 始 终 本 着 科 


编 著 


lincbit@gmail.com 
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概念 篇 主要 介绍 相关 背景 知识 ， 包 括 Spark 概述 和 运行 开发 环境 。 
其 中 Spark 概述 部 分 介绍 了 Spark 平台 的 发 展 背 景 及 运行 现状 ， 带 领 读 者 认识 
ee Spark， 随 后 详细 讲解 了 Spark 运行 环 

、 开 发 环境 和 源码 编译 及 阅读 环境 的 搭建 过 程 ， 让 读者 对 Spark 有 一 个 初 
ee 本 篇 目的 是 带领 读者 了 解 大 数据 及 Spark 平台 的 背景 ， 搭 建 自己 的 
开发 环境 ， 为 后 续 进一步 的 学 习 打 好 基础 。 


第 1 章 Spark 概述 


数据 平台 Spark。 


随 着 以 互联 网 为 代表 的 信息 技术 的 深度 发 展 ， 
由 于 传统 机 器 的 软 便 件 不 足以 支撑 如 此 庞大 数据 的 存储 、 管 理 及 分 析 能 力 ， 因 而 大 数据 


量 ， 
的 分 布 式 处 理 技 术 应 运 而 生 。 如 今 大 数据 处 理 的 主流 平台 为 Hadoop 和 Spark， 本 书 主要 介 
大 


口 


职 累 产生 了 TB、PB 其 至 EB 级 别 的 数据 


本 章 主要 介绍 Spark 的 基础 概念 、 发 展 历程 、 特 点 、 与 现 有 主流 分 布 式 应 用 框架 的 区 别 


及 其 生态 系统 中 的 重要 组 成 部 分 (如 Spark SQL、Spark Streaming、GraphX 和 MLlib 等 子 项 


目 )， 目 的 在 于 让 读者 对 分 布 式 框架 的 背景 及 主流 应 用 有 一 个 宏观 而 全 面 的 了 解 


本 $park 初 见 


Spark 是 一 种 基于 内 存 的 开源 计算 框架 ，2009 年 诞生 于 美国 
AMPLab， 它 最 初 属于 伯克利 大 学 的 研究 性 项 目 ， 后 来 在 2010 各 
为 了 Apache 基金 项 目 ， 到 2014 年 便 成 为 Apache 


几 年 的 发 展 时 间 ， 但 其 发 展 速度 非常 尺 人 。 


正 由 于 Spark 来 自 于 大 学 ， 其 整个 发 
Spark 核心 架构 的 发 展 ， 如 弹性 分 布 式 数据 集 (Resilient Distributed Datasets，RDD)、 流 处 理 


o 


展 过 程 都 充满 了 学 术 研 


加 州 大 学 伯克利 分 校 
F 正 式 开 源 ， 并 于 2013 年 成 


基金 的 顶级 项 目 ， 该 项 目 只 经 过 了 短 短 


[ 究 的 标记 ， 是 学 术 带 动 了 


(Spark streaming)、 机 器 学 习 (MLlib)、SQL 分 析 (Spark SQL) 和 图 计算 (GraphX)， 本 节 


将 主要 介绍 Spark 的 发 展 历程 和 特点 。 


1.1.1 Spark 的 发 展 史 及 近况 


Spark 从 创立 至 今 ， 成 为 大 数据 领域 风 


体 发 展 大事 记 如 下 。 


@ 2009 年 ，Spark 诞生 于 伯克利 分 校 AMPLab。 


@ 2010 年 ， 项 目 开源 ， 很 多 早期 关于 Spark 系统 思想 的 论文 发 表 。 


尖 浪 口 的 热门 项 目 只 花 了 六 年 左右 的 时 间 ， 其 具 


@ 项 目 开源 之 后 ， 在 GitHub 上 成 立 了 Spark 开发 社区 并 在 2013 年 成 为 Apach 


@ 该 项 目 在 2014 年 2 月 成 为 Apache 顶级 项 目 。 


@ 2014 年 5 月 30 日 ，Spark 1.0.0 版 正式 上 线 。 
Spark 项 目 组 核心 成 员 在 2013 年 创建 了 Databricks 公 司 ， 到 目前 为 止 已 经 在 


连续 举办 了 从 2013 年 到 2015 年 的 Spark Summit 峰 会 。 
Hortonworks、IBM、cloudera、MAPR 和 Pivotal 等 公司 的 支持 和 大 数据 方案 解 妆 


DATASTAX 和 SAP 等 公司 的 合作 。Spark 的 上 


晶 图 1-1 引 https://spark-summit.org/2015/。 


户 和 应 | 


e 孵化 项 目 。 


San Francisco 


会 议 得 到 大 数据 主流 厂商 


情况 如 图 1-19 所 示 。 
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图 1-1 


截止 2015 年 Spark 的 主要 用 户 和 应 用 


从 图 1-1 中 可 以 看 出 ，Spark 的 影响 力 在 2014 年 〈 
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可 参考 2014 年 Spark 峰会 资料 ) 的 


基础 上 不 断 扩 大 ， 已 经 有 越 来 越 多 的 Spark 用 户 使 用 该 平台 ， 其 中 包括 传统 工业 厂商 
TOYOTA 和 著名 O20 公司 Uber 与 Airbnb， 说 明 Spark 的 用 户 领 域 不 断 深化 到 传统 工业 界 和 
互联 网 与 传统 行业 交叉 的 领域 。 不 仅 如 此 ， 越 来 越 多 的 大 数据 商业 版 发 行商 ， 例 如 Cloudera 
以 及 Hortonworks 也 开始 将 Spark 纳入 其 部 署 范围 ， 这 无 疑 对 Spark 的 商业 应 用 起 到 巨大 的 
推广 推动 作用 ， 也 显示 了 Spark 平台 技术 的 先进 性 。 

从 Spark 的 版 本 演化 速度 看 ， 说 明了 这 个 平台 具有 旺盛 的 生命 力 以 及 高 的 社区 活跃 


度 。 尤 其 从 2013 年 以 来 ，Spark 进 入 了 一 个 高 速 发 展期 ， 代 码 库 提交 量 与 社区 活跃 度 都 有 
显著 增长 。 以 活跃 度 来 说 ，Spark 在 所 有 Apache 基 


金 会 开源 项 目 中 位 列 前 三 。 相 较 于 其 他 


大 数据 平台 或 框架 而 言 ，Spark 的 代码 库 最 为 活跃 ， 表 现 出 强劲 的 发 展 势头 ， 从 图 1-22 中 


可 以 看 到 。 
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1-2 2014 年 6 月 30 日 
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Lines of Code Changed 


日 ，6 个 月 中 Spark 代码 活跃 情况 


从 2013 年 6 月 到 2014 年 6 月 ， 参 与 Spark 代 码 贡 献 的 开发 人 员 从 原来 的 68 位 增长 到 


日 图 1-2 引 


用 自 https://spark-summit.org/2014/。 


255 位 ， 截 至 2015 年 6 月 参与 开发 的 人 员 已 经 达到 730 位 92， 参与 贡献 的 公司 逐渐 有 来 自 中 
国 的 阿里 巴巴 、 百 度 、 网 易 、 腾 讯 和 搜狐 等 公司 。 代 码 库 的 代码 行 也 从 2014 年 的 17 万 行 增 
长 到 2015 年 的 40 万 行 。 图 1-3S 为 截至 2014 年 Spark 代 码 贡献 者 每 月 的 增长 曲线 。 
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图 1-3 截至 2014 年 Spark 代码 贡献 者 每 月 的 增长 曲线 


从 图 1-3 可 以 看 出 ，Spark 从 2010 年 到 2014 年 间 代 码 贡献 者 的 数量 不 断 增 长 ， 而 且 增 
长 的 速度 越 来 越 快 。 到 2015 年 ， 每 月 的 代码 贡献 者 增长 到 现在 的 135 位 ， 在 这 些 代码 贡献 
者 中 出 现 了 很 多 中 国 公司 和 开发 者 的 身影 。 例 如 目前 世界 上 最 大 的 Spark 集群 在 腾讯 ， 拥 有 
高 达 8000 个 节点 ; 最 大 的 单 任 务 处 理 数 据 量 达到 1PB， 这 项 记录 是 由 阿里 巴巴 公司 和 
databricks 公司 共同 持 有 。 中 国之 所 以 能 在 这 方面 发 展 迅速 ， 是 因为 中 国 市 场 巨大 ， 信 息 产 
业 的 发 展 积 累 了 更 多 数据 ， 进 而 产生 更 为 迫切 的 大 数据 处 理 需 求 ， 最 后 通过 市 场 需求 来 推动 
技术 发 展 。 

除了 影响 力 巨 大 的 Spark Summit 之 外 ，Spark 社 区 还 不 定期 地 在 全 球 各 地 召开 小 型 的 
Meetups 活 动 。 其 中 在 中 国 的 北京 、 上 海 和 深圳 都 有 相应 的 Spark 技 术 分 享 的 Meetup 活 动 。 
Spatk Meetup Group 已 经 遍布 北美 、 欧 洲 、 亚 洲 和 大 洋 洲 。 图 1-4@ 为 Spark Meetup Groups 在 
全 球 的 分 布 图 。 
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图 174 全 球 Meetup Groups 分 布 情况 


https://spark-summit.org/2015/。 

1-3 引用 自 https://spark-summit.org/2014/。 
Meetup 是 一 家 知名 的 在 线 活动 组 织 平台 。 
1-4 5| https://spark-summit.org/2014/。 
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@®@O000 


数 


从 以 上 情况 可 以 看 出 Spark 的 良好 发 展 前 景 ， 
趣 。 


1.1.2 ”Spark 的 特点 


内 存 


Spark 之 所 以 受 关 注 ， 是 因 


1， 轻 量 级 快速 处 理 


国内 外 工业 界 和 学 术 界 都 对 其 抱 有 极 大 


I 


为 其 有 与 其 他 大 数据 平台 不 同 的 特点 ， 主 要 如 下 。 


大 数据 处 理 中 ， 速 度 往往 被 置 于 第 一 位 ， 所 以 迫切 需要 能 尽快 处 理 数据 的 工具 。Spark 
允许 传统 Hadoop 集群 中 的 应 用 程序 在 内 存 中 以 100 倍 的 速度 运行 ， 即 使 在 磁盘 上 运行 也 能 
加 快 10 倍 。Spark 通过 减少 磁盘 IO 来 达到 性 能 的 提升 ， 它 们 将 中 间 的 处 理 数据 全 部 放 到 了 
中 。Spark 使 用 RDD 进行 数据 抽象 ， 以 允许 在 内 存 中 存储 数据 ， 只 在 需要 时 才 持 久 化 到 


人 磁盘。 这 种 做 法 大 大 地 减少 了 数据 处 理 过 程 中 磁盘 的 读 写 ， 


级 操作 符 ， 人 允许 在 shell 中 进行 交互 式 查 询 。 多 种 使 用 模式 的 特点 使 应 用 更 灵活 。 


务 的 


2. 易于 使 用 


大 幅度 地 降低 了 运行 时 间 。 


Spark 支持 多 种 语言 ， 包 括 Java、Scala、Python 及 R (Spark 1.4 版 支持 )， 这 人 允许 更 多 
的 开发 者 在 自己 熟悉 的 语言 环境 下 进行 工作 ， 扩 大 了 Spark 的 应 用 范围 。 它 自 带 80 多 个 高 


3. 支持 复杂 查询 


除了 简单 的 map 及 reduce 操作 之 外 ，Spark 还 支持 filter、foreach、reduceByKey、 
aggregate 以 及 SQL 查询 、 流 式 查 询 等 复杂 查询 。Spark 更 为 强大 之 处 是 用 户 可 以 在 同一 个 工 
作 流 中 无 颖 的 搭配 这 些 功 能 ， 例 如 Spark 可 以 通过 Spark Streaming (1.2.2 小 节 有 详细 介绍 ) 
获取 流 数据 ， 然 后 对 流 数据 进行 实时 SQL 查询 或 使 用 MLlib 库 进 行 系统 推荐 ， 而 且 这 些 业 


换代 价 小 ， 体 现 了 统一 引擎 解决 不 同类 型 工作 场景 的 特点 。 
有 关 Streaming 技术 以 及 MLlib 库 和 RDD 将 会 在 之 后 的 章节 详 述 。 
4. 实时 的 流 处 理 〈Spark Streaming ) 

对 比 MapReduce 只 能 处 理 离 线 数据 ，Spark 还 能 文 持 实 


来 对 


数据 进行 实时 处 理 ， 当 然 在 YARN? 之 后 Hadoop 也 可 以 借助 其 他 的 工具 进行 流 式 计算 


对 于 Spark Streaming， 著 名 的 大 数据 产品 开发 公司 Cloudera 


无 须 
付 工 


据 中 


1) 简单 、 轻 量 且 具备 功能 强大 的 API，Spark Streaming 允许 开发 者 快速 开发 流 应 用 
程序 。 


2) 容错 能 力 强 ， 对 比 


其 他 的 流 解 决 方案 ， 比 如 使 用 


集成 并 不 复杂 ， 因 为 它们 都 基于 RDD 这 一 抽象 数据 集 在 不 同业 务 过 程 中 进行 转换 ， 转 


时 流 计 算 。Spark Streaming 主 要 用 


的 评价 如 下 。 


Storm 需要 额外 的 配置 ， 而 Spark 


额外 的 代码 和 配置 ， 直 接 使 用 其 上 层 应 用 框架 Spark Streaming 就 可 以 做 大 量 的 恢复 和 区 


作 ， 让 Spark 的 流 计 入 


更 加 适应 不 同 的 需求 。 


3) 集成 性 好 ， 为 流 处 理 和 批 处 理 重 用 了 同样 的 代码 ， 


(如 HDFS )。 


5. 与 已 存 Hadoop 数据 整合 
Spark 不 仅 可 以 独立 的 运行 (使 用 Standalone 模式 )， 


G@G YARN: 是 一 种 新 的 Hadoop 资源 管理 器 ， 它 是 一 个 通用 资源 管理 系统 。 


甚至 可 以 将 流 数 据 保存 到 历史 数 


还 可 以 运行 在 当下 的 YARN 管理 


集群 中 。Spark 可 以 读 取 已 有 的 Hadoop 数据 ， 这 是 一 个 非常 大 的 优势 ， 也 可 以 运行 在 任何 


Hadoop 数据 源 上 ， 比 如 HBase、HDFS 等 。 这 个 特性 可 以 让 用 户 可 以 轻易 地 迁移 已 有 的 


Hadoop 应 用 。 
6. 活跃 的 社区 


Spark 起 源 于 2009 年 ， 当 下 已 有 超过 50 个 机 构 730 个 工程 师 贡 献 过 代码 。 与 2014 年 6 


日 呢 ? 从 需求 角度 来 看 ， 随 着 信息 行业 数据 量 


其 本 身 软 硬件 限制 而 无 法 处 理 ， 所 以 很 需要 能 对 大 量 数据 进行 存储 


mn 


个 需求 导向 的 背景 下 产生 ， 


BT Spark 已 经 如 


] 相 比 ，2015 年 Spark 代 码 行 数 增加 了 近 三 倍 89， 这 是 个 惊人 的 增长 。 
1.1.3 Spark 的 作用 


为 什么 现 阶段 Spark 被 如 此 众多 的 公司 应 月 
的 不 断 积累 ， 传 统 单机 
和 分 析 处 理 的 系统 ， 另 一 方面 ， 大 型 互联 网 公司 因为 业 
技术 的 高 效 实时 怕 
Spark 就 是 在 这 样 
下 的 大 数据 问题 ， 高 效 挖 气 大 数据 


务 数据 量 增长 非常 快 ， 对 大 数据 处 理 


FE 要 求 越 来 越 高 ， 迫 切 的 需求 促进 了 数据 存储 和 计算 分 析 系 统 技术 的 发 展 。 
其 设计 的 目的 就 是 能 快速 处 理 多 种 场景 
FP 的 价值 ， 从 而 为 业务 发 展 提供 决策 支持 。 

外 商 、 电 信 、 视 频 娱 乐 、 零 售 、 商 业 分 析 和 金融 等 领域 有 广泛 应 用 ， 


在 本 书 第 四 部 分 的 应 月 
1.1.4 ”Spark 的 体系 结构 


日 篇 能 看 到 Spark 在 这 些 领 域 的 应 用 。 


Spark 的 体系 结构 如 图 1-5 所 示 ， 不 同 于 Hadoop 的 MapReduce 和 HDFS，Spark 主要 包 


括 Spark Core 和 在 Spark Core 其 而 


和 GraphX。 


Core 库 中 主要 包括 上 下 文 Spark Context、 抽 
Shuffle 和 序 区 


都 在 其 中 。 


在 Core 库 之 | 
器 学 习 Mllib 和 图 计 入 
BlinkDB 和 Tungsten 
HDFS 运 今 仍 是 不 可 被 百代 ， 一 直 被 各 分 布 式 系统 所 


FEF， 根据 业务 需求 分 为 ) 


目 共 同 组 成 Spark 


框架 Spark SQL、Spark Streaming、MLlib 


象 数 据 集 RDD、 调 度 器 Scheduler、 洗 牌 
化 器 Serializer 等 。Spark 系统 中 的 计算 、IO、 调 度 和 shuffle 等 系统 基本 功能 


于 交互 式 查 询 的 SQL、 实 时 流 处 理 Streaming、 机 
GraphX 四 大 框架 ， 除 此 之 外 还 有 一 些 其 他 实验 性 项 目 ， 如 Tachyon、 

体系 结构 。 当 然 Hadoop 中 的 存储 系统 
使 用 ， 它 也 是 Spark 应 用 主要 的 持久 化 


存储 系统 。 在 1.3 节 和 第 4 章 可 以 更 全 面 地 学 习 这 四 大 应 用 框架 的 内 容 。 


1.1.5 ”Spark 的 发 展 趋势 
不 论 国内 外 ， 信 息 技术 都 不 断 地 被 企业 和 政府 所 习 


加 引 


https://spark-summit.org/2015/。 
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图 1-5 Spark 体系 结构 


EE 视 ， 从 德国 的 “工业 4.0” 到 美国 的 


“工业 互联 网 ”战略 规划 ， 再 


到 中 国 的 “中 国 制造 2025” 和 “互联 网 +”， 这 其 中 


无 不 体现 政 


府 对 云 计算 、 物 联网 和 大 数据 技术 与 传统 工业 深度 融合 、 协 同 发 展 的 期 待 ， 而 中 国 本 身 是 制造 


业 大 国 ， 更 需要 多 


Spark 


E 进 的 信息 技术 对 接 来 提升 工业 
F 台 技术 本 身 也 正 被 医疗 、 金 融 、 电 信 


相信 在 未 来 以 大 数 
势 ， 极 有 可 能 胡 


掉 造 水 平 以 满足 客户 越 来 越 多 的 个 性 化 需求 。 


据 技 术 为 代表 的 Spark 平台 以 


E 未 来 5 到 10 年 内 成 为 大 数据 人 处理 
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在 讲述 了 关于 Spark 的 背景 、 特 点 等 内 容 后 ， 还 有 一 点 值得 提出 的 就 是 引起 大 数据 处 理 


技术 迅 独 发 展 的 技术 平台 应 该 是 始 了 
Hadoop 为 代表 的 大 数据 处 
运算 的 需求 ， 一 批 新 处 到 
即席 查询 框架 


Streaming 和 


的 、 应 用 及 趋势 有 一 定 了 解 。 


1.2.1 


这 里 主要 对 比 Hadoop 与 Spark 在 批 处 到 


批 处 理 框 染 


方面 的 区 别 ， 它 


、 电 商 和 政府 等 越 来 越 多 的 领域 所 使 用 
优良 的 设计 理念 加 上 其 社区 莲 勃 的 发 展 
平台 的 事实 标准 。 


们 在 设计 上 


场景 等 方面 进行 对 比 ， 如 表 1-1 所 示 。 


表 1-1 Hadoop 与 Spark 的 区 别 


2004 年 的 Hadoop， 然 而 经 过 十 多 年 的 发 展 ， 以 
里 技术 因 其 当初 设计 的 缺陷 ， 已 经 不 能 满足 当前 对 实时 性 及 迭代 
框架 如 雨后春笋 般 出 现 ， 如 流 处 理 框架 Storm、 
Spark SQL。 本 节 将 对 它们 进行 对 比 ， 让 读者 对 新 老 框架 的 设计 目 


Samza、 Spark 


的 、 计 算 模型 和 适 


项 Hadoop Spark 
起 源 时 间 2004 年 2009 年 
设计 目的 使 用 分 布 式 算法 能 处 理 大 规 横 数据 克服 MapReduce 模型 缺陷 ， 能 在 多 场景 处 理 大 规模 数据 
计算 模型 MapReduce 计算 模型 基于 内 存 的 抽象 数据 类 型 RDD 
主要 支持 的 语言 Java Scala 
处 理 效率 低 是 Hadoop 处 理 速度 的 几 十 倍 
缺点 计算 模型 单一 、 效 率 低 对 内 存 容量 要 求 高 ， 成 本 较 高 
适用 场景 非 迭 代 批 处 理 批 处 理 、 和 迭代 计算 模型 
稳定 性 高 一 般 
通用 性 较 弱 ， 需 要 与 不 同 框架 结合 适 兼容 Spark SQL、Spark Streaming、MLlib 和 GraphX 


从 表 1-1 中 可 以 看 出 ， 发 展 十 余年 的 
初 没 有 考虑 到 效率 ， 导 致 在 面 对 和 迭代 计算 


计算 模型 太 单 一 有 


Hadoop 解决 了 处 班 
问题 时 效率 很 低 ， 主 要 原因 归结 于 其 MapReduce 


计算 过 程 中 的 Shuffle 过 程 对 本 地 人 硬盘 的 IO 消耗 太 大 ， 不 能 适应 复杂 需 


E 


大 数据 的 问题 ， 但 因 其 设计 之 


求 。 不 仅 如 此 ， 当 Hadoop 要 面 对 SQL 交互 式 查 询 场景 、 实 时 流 处 理 场景 以 及 机 器 学 习 场景 


时 力不从心 ， 不 得 不 与 第 三 方 应 用 框架 相 结合 ， 


从 而 导致 不 同类 型 业务 〈 如 流 处 至 


查询 ) 在 衔接 过 程 中 因 涉 及 不 同 的 数据 格式 ， 故 而 在 共享 和 转换 数据 过 程 中 消耗 大 量 资源 。 
众所周知 ， 内 存 计算 速度 比 硬盘 要 快 儿 个 数 


三 


E 和 SQL 交互 


量 级 ，Spark 作为 基于 内 存 计算 大 数据 处 理 
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平台 以 其 高 速 、 多 场景 适用 的 特点 逐渐 脱颖而出 ， 体 现 了 “一 个 堆栈 来 解决 各 种 场景 〈One 


stack to rule al)” 的 宗 目 。 


1.2.2” 流 处 理 框架 

Storm 是 一 个 分 布 式 的 、 容 错 的 实时 计算 系统 ， 它 由 Twitter 公司 开源 ， 专 门 用 于 数据 实时 
处 理 的 平台 。 它 与 Spark Streaming 功能 相似 ， 都 是 将 流 数 据 分 成 一 个 个 小 块 的 批 (batch〉 数 据 
0 下 面 主 要 从 处 理 延 迟 和 容错 两 个 方面 进行 分 析 。 

.处 理 模 型 ， 

Storm 和 Spark a 这 两 个 框架 都 提供 可 扩展 性 和 容错 性 ， 它 们 根本 的 区 别 在 于 处 
理 模 型 。Storm 处 理 的 是 每 次 传 入 的 一 个 事件 ， 而 Spark Streaming 处 理 的 是 某 个 时 间 段 窗 
内 的 事件 流 。 因 此 ，Storm 处 理 一 个 事件 可 以 达到 秒 内 的 延迟 ， 而 Spark Streaming 则 有 秒 级 
延迟 。 

2. 容错 、 数 据 保 证 

在 容错 数据 保证 方面 ，Spark Streaming 提供 了 更 好 的 支持 容错 状态 计算 。 在 Storm 中 ， 
每 个 单独 的 记录 当 它 通过 系统 时 必须 被 跟踪 ， 所 以 Storm 能 够 至 少 保证 每 个 记录 将 被 处 理 
次 ， 但 是 在 从 错误 中 恢复 过 来 时 允许 出 现 重 复 记 录 。 这 意味 着 可 变 状 态 可 能 被 错误 地 更 新 
两 次 。 

另 一 方面 ，Spark Streaming 只 需要 在 批 处 理 级 别 进行 跟踪 处 理 ， 因 此 即便 一 个 节点 发 生 
故障 ， 也 可 以 有 效 地 保证 每 个 批 处 理 过 程 的 数据 将 完全 被 处 理 一 次 。 实 际 上 Storm 的 Trident 
library 也 提供 了 一 次 完全 处 理 ， 但 它 依 赖 于 事务 更 新 状态 ， 比 较 慢 ， 通 常 必须 由 用 户 来 实现 。 

对 于 本 书 所 讲 版 本 的 Spark Streaming 而 言 ， 最 小 选取 的 批 数据 量 (Batch Size) 的 选取 
在 0.5$~2s (Storm 最 小 的 延迟 是 100ms 左右 )， 故 Spark Streaming 能 够 满足 除 对 实时 性 要 求 
非常 高 〈 如 高 频 实 时 交易 ) 之 外 的 流 式 准 实时 〈“ 准 实时 ”表示 数据 延迟 在 秒 级 ) 计算 
场景 o 

简 而 言 之 ， 如 果 限 于 毫秒 级 的 延迟 ，Storm 是 一 个 不 错 的 选择 ， 而 且 没 有 数据 丢失 。 如 
果 需 要 有 状态 的 计算 ， 时 延 秒 级 ，Spark Streaming 更 好 。Spark Streaming 的 编程 逻辑 也 可 能 
更 容易 ， 因 为 它 类 似 于 批 处 理 模型 MapReduce， 此 外 因为 Spark 融合 了 多 种 业务 模型 ， 所 以 
如 果 面 对 融合 不 同业 务 的 场景 ， 考 虑 到 人 工 维护 成 本 和 数据 转换 成 本 ， 则 Spark 平台 更 能 符 
合 需求 。 
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Spark 的 设计 目的 是 全 栈 式 地 解决 批 处 理 、 结 构 化 数据 查询 、 流 计算 、 图 计算 和 机 器 学 
习 业 务 场景 ， 此 外 其 通用 性 还 体现 在 对 存储 层 〈 如 HDEFS 、cassandra2 ) 和 资源 管理 层 
(Mesos、YARN) 的 支持 。Spark 生 态 系统 如 图 1-6 所 示 ， 在 Spark Core 的 上 层 有 支持 SQL 查 
询 的 子 项 目 Spark SQL、 文 持 机 器 学 习 MLlib 库 、 支 持 图 计算 的 GraphX 以 及 支持 流 计算 的 


所 


mln 


T 


〇 cassandra: 最 初 由 Facebook 开发 的 分 布 式 NoSQL 数据 库 ， 于 2008 年 开源 。 
名 Mesos: AMPLab 最 初 开发 的 一 个 集群 管理 器 ， 提 供 了 有 效 的 、 跨 分 布 式 应 用 或 框架 的 资源 隔离 和 共享 。 


减少 了 数据 转换 的 消耗 和 运 维 管 


Spark Streaming 等 。 | 象 数据 集 能 在 不 同 应 用 中 使 用 ， 大 大 
的 资源 占用 。 
辆 | E 
本 k | k 之 
人 
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Stack，BDAS)， 下 面 对 BDAS 中 的 主要 项 目 进行 介绍 。 


HDFS/Hadoop Storage 


图 1-6 Spark 生态 系统 


所 示 的 生态 系统 被 AMPLab 称 为 伯克利 数据 分 析 栈 (Berkeley Data Analytics 


1. Spark 


作为 Spark 生态 系统 的 核心 ， 
计算 模型 MapReduce, 还 包含 逢 


join 和 filter 等 


将 Hive 


Spark 作业 ， 
不 利于 添加 痢 


抽象 语法 数 (Abstract Syntax Tree，AST) 后 的 部 分 都 是 由 Spark SQL 自身 
(图 1-7 所 示 为 Spark SQL 与 Hive 之 间 的 关系 )， 利 ) 
开发 的 执行 计划 优化 策略 比 Hive 更 简洁 。 


让 Catalyst 


面 手 ， 能 让 交互 式 栓 
Spark 的 业务 应 ) 
2. SQL/Shark 
Shark 是 为 了 将 Hive 应 用 移植 到 Spark 平台 下 而 日 
上 对 SQL 支持 的 语言 称 为 HQL) 方面 重用 
行 计 划 优 化 等 逻辑 ， 


Spark 主要 提供 


。Spark 将 数据 抽象 为 RDD， 有 效 地 
询 、 流 处 理 、 机 器 学 习 和 居 


可 以 认为 仅 将 底层 物理 执行 计划 
此 外 还 依赖 Hive Metastore 和 Hive SerDe。 
折 的 优化 策略 ， 


这 样 做 会 


基于 内 存 计算 的 功能 ， 不 仅 包含 Hadoop 的 
多 其 他 的 API， 如 reduceByKey、groupByKey、foreach、 

扩充 了 Spark 编程 模型 ， 
计算 无 颖 交叉 融合 


使 Spark 成 为 多 
， 极 大 地 扩展 了 


了 Hive 的 HQL 解析 、 
从 Hadoop 的 MapReduce 作业 转移 到 
导致 执行 计划 过 于 依赖 Hive， 
因此 为 了 减少 对 Hive 本 身 框架 的 依赖 ， 引 入 了 Spark SQL。 

Spark SQL 仅 依 赖 HQL Parser、Hive metostore 和 


j 场 景 ， 同 时 Spark 使 用 函数 式 编 程 语言 Scala， 使 编程 更 简洁 高 效 。 


H 现 的 数据 仓库 。Shark 在 HQL (一 般 
逻辑 计划 翻译 、 执 


Hive SerDe， 即 说 明 在 解析 SQL 生成 


j scala 模式 匹配 等 函数 式 语 言 的 特性 
除了 HQL 以 外 ，Spark SQL 还 内 建 了 


的 Calalyst 负责 


[C» 


一 个 精简 的 SQL parser， 以 及 一 套 Scala 特定 领域 语言 (Domain Specific Language,， DSL)。 
也 就 是 说 ， 如 果 只 是 使 用 Spark SQL 内 建 的 SQL 方言 或 Scala DSL 对 原生 RDD 对 象 进行 关 


系 查询 ， 


Spark SQL 从 Spark 1.3 开始 支持 提供 


SQL 查询 引 
化 ， 


用 户 在 开 


它 能 从 多 利 


发 Spark 应 | 


时 完全 不 需要 依赖 Hive 的 任何 东西 ， 
重点 在 Spark SQL， 对 Shark 的 支持 会 逐渐 淡化 。 


一 个 让 


| 警 。DataFrame 本 质 就 是 一 张 关系 型 数据 


4.1 节 中 对 其 展开 进行 更 详细 的 介绍 。 


| 象 的 编程 
库 中 的 表 ， 但 
数据 源 中 转化 而 来 ， 例 如 结构 型 数据 文件 〈 如 Avro，Parquet ORC, JSON 和 


JDBC)、Hive 表 、 外 部 数据 库 或 已 经 存在 的 RDD。 对 于 Spark SQL， 本 书 将 在 之 后 的 第 4 章 


结构 DataFrames， 


因而 日 后 的 发 展 趋势 


能 充当 分 布 式 


是 底层 有 


很 多 方面 的 优 


Meta 
2 


图 1-7 Spark SQL 和 Hive 的 关系 


3. Spark Streaming 


Spark Streaming 是 基于 Spark 的 上 层 应 用 框架 ， 使 用 内 建 API， 能 像 写 批 处 理 文件 一 样 
E 务 ， 易 于 使 用 ， 它 还 提供 良好 的 容错 特性 ， 能 在 节点 宕 机 情况 下 同时 恢复 丢失 


编写 流 处 理 和 有 


的 工作 和 操作 状态 。 


在 处 理 时 间 方 面 ，Spark Streaming 是 基于 时 间 片 的 准 实时 人 处理， 能 达到 秒 级 延 人 运 ， 否 吐 


量 比 Storm 大 ， 


此 外 还 能 和 Spark SQL 与 Spark MLlib 联合 使 用 ， 构 建 强大 的 流 状态 运行 即 


席 〈ad-hoc) 查询 和 实时 推荐 系统 。 对 于 Spark Streaming， 本 书 将 在 之 后 第 4 章 4.2 市 对 其 


展开 进行 更 详细 的 介绍 。 


4. GraphX 


GraphX 是 基于 Spark 的 上 层 分 布 式 图 计算 框架 ， 提 供 了 类 似 Goole 图 算法 引擎 Pregel 的 功 


能 ， 主 要 处 理 社交 网 络 等 节点 和 边 模型 的 问题 。 因 为 Spark 能 很 好 地 支持 迭代 计算 ， 故 处 理 效率 
无 势 明显 。GraphX 的 较 新 版 本 (Spark 1.4.1) 文 持 PageRank、SVD++ 和 三 角形 计数 等 算法 。 
前 国内 的 淘宝 技术 部 在 GraphX 方面 的 应 用 成 果 很 多 ， 可 以 参考 http://rdc.taobao.org 了 解 更 多 信 
息 。 对 于 GraphX， 本 书 将 在 之 后 第 4 章 4.3 节 对 其 展开 进行 更 详细 的 介绍 。 


加 


5. MLlib 


MLlib 是 Spark 生态 系统 在 机 器 学 习 领 域 的 重要 应 用 ， 它 充分 发 挥 Spark 迭代 计算 的 优 
势 ， 比 传统 MapReduce 模型 算法 快 一 百倍 以 上 。 


MLlib 1.3 


实现 了 逻辑 回归 、 线 性 SVM、 随机 森林 、K-means、 奇 异 值 分 解 等 多 种 分 布 


式 机 器 学 习 算 法 ， 充 分 利用 RDD 的 迭代 优势 ， 能 对 大 规模 数据 应 用 机 器 学 习 模 型 ， 并 能 与 
Spark Streaming、Spark SQL 进行 协作 开发 应 用 ， 让 机 器 学 习 算 法 在 基于 大 数据 的 预测 、 推 
荐 和 模式 识别 等 方面 应 用 更 广泛 。 对 于 MLlib 以 及 其 中 支持 的 算法 ， 本 书 将 在 之 后 第 4 章 


4.4 节 对 其 展开 进行 更 详细 的 介绍 。 


6. Tachyo 


n 


Tachyon 是 基于 内 存 的 分 布 式 文件 系统 。 过 去 ，Spark 的 计算 功能 和 内 存 管理 都 在 JVM 
中 ， 导 致 JVM 负载 较 高 ， 同 时 各 任务 共享 数据 也 不 方便 ， 当 JVM 崩溃 后 很 多 缓冲 数据 也 会 


丢失 ， 为 了 解决 上 述 问题 ， 从 而 衍生 出 Tachyon 技术 。 


Tachyon 的 主要 设计 目的 是 分 离 Spark 的 计算 功能 和 内 存 管理 功能 ， 使 内 存 管理 脱离 
JVM， 专 门 设 计 Tachyon 在 JVM 外 管理 内 存 数据 。 这 样 不 仅 解决 了 Spark 在 数据 共享 、 绥 


存 数 据 丢 失 情 况 下 效率 较 低 的 问题 ， 还 能 减少 JVM 因为 数据 量 过 多 导致 经 常 的 GC 垃圾 收 


集 ， 有 效 地 提 天 


上 了 Spark 的 计算 效率 。 从 男 一 个 角度 看 ， 在 Spark 计算 框架 和 基于 人 磁盘 的 


HDFS 之 间 Tachyon 可 看 成 是 内 存 与 硬盘 之 间 的 缓存 ， 以 有 效 地 提升 数据 读 取 速度 。 


7. Mesos 


Mesos 是 一 个 集群 管理 器 ， 与 YARN 功能 类 似 ， 提 供 跨 分 布 式 应 用 或 框架 的 资源 隔离 与 


共享 ， 可 在 其 上 运行 Hadoop、Hypertable (一 种 类 似 Google 公司 Bigtable 的 数据 库 )、 


Spark。Mesos 使 


分 布 式 应 


离 任务 ， 文 持 不 同 的 资源 分 配 计划 。 


8. YARN 


] 程 序 协调 服务 Zookeeper 实现 容错 ， 同 时 利 


YARN (Yet Another Resource Negotiator) 最 初 是 为 Hadoop 生态 设计 的 资源 管理 右 ， 


在 


框架 。 在 Spark 使 用 方 押 


至 
系统 的 适用 性 更 好 。 
9. BlinkDB 


器 ， 对 Spark 的 支持 力度 很 大 ， 但 国内 的 3 


上 运行 Hadoop、Hive、pig (pig 是 一 种 基于 Hadoop 
，YARN 与 Mesos 很 大 的 不 同 是 Mesos 是 AMPlab 开发 的 资源 管 


个 


BlinkDB 是 


于 在 


它 允 许 ) 


BlinkDB 达到 这 样 目 标的 两 个 核心 


户 在 查询 结果 精度 和 时 间 上 作出 权衡 ， 
一 是 提 


思想 


YA 


FE 流 仍 是 YARN， 


~ 


] Linux 的 容器 隔 


台 马 
月 
台 的 高 级 过 程 语 言 )、Spark 等 应 


E 态 


主要 是 YARN 对 Hadoop 9 


供 一 个 自 适 应 


间 的 推移 建立 并 维护 


组 多 名 


;样本 ， 


示例 ， 基 于 查询 的 准确 性 和 响应 时 间 来 实现 需求 。 


14 Spark 的 数据 存储 


Spark 本 身 是 基于 内 存 计算 的 架构 ， 数 据 的 存储 也 主要 分 为 内 存 和 磁盘 两 个 路 径 。Spark 


三 | 
征 


本 身 则 根据 存储 位 置 、 
此 外 还 可 选择 使 用 


为 了 适应 迭代 计 


A 


Tachyon 来 管理 


内 存 容 量 有 限时 ， 则 将 数据 存 入 磁盘 中 或 


内 存 数据 。 
向 被 重 月 


ER 
[站 


也 


bar 

SE 
二 | 

DAN 


量 数据 上 运行 交互 式 SQL 近似 查询 的 大 规模 并 行 查询 引擎 。 
数据 的 精度 被 控制 在 允许 的 误差 范 
优化 框架 ， 从 原始 数据 随 着 时 
二 是 使 用 一 个 动态 样本 选择 策略 ， 选 择 一 个 适当 大 小 的 


国内 。 


否 可 序列 化 和 副本 数目 这 几 个 要 素 将 数据 存储 分 为 多 种 存储 级 别 。 


的 数据 缓存 到 内 存 中 以 提升 数据 读 取 速 度 ， 当 


据 最 近 最 少 使 用 页 面 置 


ge 


Used，LRU) 将 内 存 中 使 
Tachyon 的 出 


部 分 分 离 ， 专 门 
Spark 管理 


1.5 本章 小 结 


本 章 首 先 对 Spark 进行 了 概述 ， 对 Spark 的 发 
国内 在 大 数据 平台 领域 如 火 如 茶 的 发 
EE 以 及 流 式 处 理 方面 进行 对 比分 析 ， 使 读者 了 解 了 大 数据 
平台 ， 


明 ， 体 现 了 Spark 在 全 球 和 
与 Hadoop 平台 在 数据 批 处 到 
展 趋势 。 最 后 介绍 了 Spark 的 生态 系统 ，Spark 


来 龙 去 脉 和 发 


频率 较 低 的 文件 
现 主要 是 为 了 解决 3 个 问题 而 设计 。 
绥 存 数据 技 失 问题 ， 三 是 GC 姑 


上 的 负担 和 JVM 内 存 负担 。 这 利 
序 运 行 的 稳定 性 和 速度 ， 在 第 5.4 节 可 以 了 1 


F 销 问题 。Tachyon 将 过 去 上 
使 用 Tachyon 在 JVM 堆 外 管理 Spark 计算 所 需要 的 数据 ， 极 大 地 减轻 了 
设计 思路 能 很 好 地 解决 以 上 3 个 问题 并 提升 了 程 
解 更 多 Tachyon 的 内 容 。 


E 间 收回 


， 从 而 让 新 的 数据 进来 。 


展 历 程 及 目 


前 的 应 


展 形势 ; 


换算 法 (Least Recently 


是 多 应 用 数据 共享 问题 ， 二 是 JVM 
的 Spark 中 的 计算 和 内 存 管理 两 个 


态势 进行 了 详细 说 
然后 对 Spark 平台 


区 会 


的 


作为 一 个 开源 分 析 处 理 


为 了 应 对 现实 环境 中 复杂 的 场景 ， 必 然 要 与 不 同 的 框架 结合 使 ) 
的 Spark SQL、Spark Streaming、MLlib 和 GraphX 被 广泛 地 应 


对 这 些 技术 进行 详细 说 明 。 


才能 发 挥 更 好 的 性 能 ， 


在 工业 各 领域 ， 后 面 章节 将 


第 2 章 Spark 环境 配置 


Spark 为 使 用 者 提供 了 大 量 的 工具 和 脚本 文件 ， 使 其 部 署 与 开发 变 得 方便 快捷 ， 本 章 将 


分 别 从 运行 〈 包 含 集群 部 署 )、 开 发 以 及 源码 编译 


配置 流程 。 对 于 初次 接触 Spark 的 读者 ， 建 议 仅 


阅读 本 章 运 行 环 境 部 署 和 天 


内 容 ， 如 果 后 期 有 源码 编译 或 者 源码 学 习 需 求 ， 再 回头 阅读 相关 章节 。 


2.1 ”S$park 运行 环境 配置 


三 个 角度 ， 来 介绍 Spark 相关 环境 的 具体 


[发 环境 部 署 两 节 


Spark 能 够 运行 在 Windows 或 者 类 UNIX (如 GUN/Linux、OS X 等 ) 平台 上 。 
况 下 ，Windows 仅 作 为 Spark 的 开发 平台 ， 读 者 如 果 希 望 把 Spark 应 用 于 生产 环境 ， 尤 其 是 
部 署 集群 时 ， 建 议 选择 Linux 平台 ， 本 章 后 续 所 有 内 容 也 都 基于 Linux 发 行 版 Ubuntu 14.04 


LTS， 其 他 Linux 发 行 版 的 操作 与 之 类 似 。 


2.1.1 ”先决 条 件 


Spark 使 用 Scala 语言 编写 ， 运 行 在 Java 虚拟 机 (JVM) 当 
Java 6 或 者 更 高 版 本 ， 考 虑 到 后 期 的 开发 需求 ， 
( http://www.oracle.com/technetwork/java/javase/downloads/index.htm1 ) 上 下 载 合适 


般 情 


~ 


因此 需要 在 系统 ! 
建议 读者 直接 从 Oracle 
的 JDK 


安装 
官 网 


(Java Development kit) 版 本 并 安装 ， 安 装 过 程 中 将 JAVA_HOME 环境 变量 的 值 设 置 为 Java 


的 安装 


检查 JDK 是 和 否 已 经 被 正确 安装 ， 命 令 返 回 结果 会 


$ javac -version 
javac 1.7.0_79 


因 安 装 JDK 版 本 而 异 。 


如 果 读 者 希望 能 够 使 用 R 语言 编写 Spark 程序 ， 那 么 还 需要 在 本 地 安装 R 解释 器 ， 在 


Ubuntu 下 可 以 通过 执行 如 下 命令 安装 。 


$sudo apt-get update && sudo apt-get install r-base 


Spark 控制 脚本 依赖 安全 外 壳 协 议 〈Seavre Shell，SSH) 来 执行 对 整个 集 夭 


的 操作 ， 局 


录 ，PATH 环境 变量 添加 Java 安装 目录 下 的 bin 目录 。 安 装 完毕 之 后 执行 如 下 命令 


动 、 停 止 整个 集群 。 搭 建 集群 ， 需 要 在 主 节 点 上 安装 好 SSH 客户 端 ， 在 所 有 节点 上 安装 好 
SSH 服务 端 。 在 Ubuntu 环境 下 ， 可 以 通过 以 下 命令 安装 OpenSSH Client 和 OpenSSH 


Server (OpenSSH 是 SSH 的 一 种 开源 实现 )。 


$ sudo apt-get update && sudo apt-get install openssh-client openssh-server 


2.1.2 下载 与 运行 Spark 


下 载 Spark 安装 包 

Spark 官方 〈http:/spark.apache.org/downloads.html) 提供 了 Spark 二 进 制 包 和 源码 的 下 
载 ， 页 面 如 图 2-1 所 示 ， 如 无 特殊 需求 ， 建 议 读者 直接 下 载 预 先 编译 好 的 二 进 制 包 。 此 外 ， 
Spark 支持 读 写 DES 中 的 文件 ， 如 果 读 者 希望 后 期 使 用 HDFS 来 做 数据 存储 ， 则 需要 根据 
Hadoop 的 版 本 选择 合适 的 预 构建 版 本 ， 若 未 能 找到 对 应 Hadoop 版 本 的 Spark 安装 包 ， 可 以 
考虑 手动 编译 源码 ， 本 书 将 在 第 2.3 节 上 具体 介绍 Spark 源码 编译 的 流程 。 

下 载 压缩 包 到 本 地 目录 中 ， 执 行 如 下 命令 进行 解压 缩 ， 其 中 1.x.y 为 Spark 版 本 号 ，z.w 
为 Hadoop 版 本 号 。 


$ tar -Zxvf spark-1.x.y-bin-hadoopz.w.tgz 


Download Spark 


The latest release of Spark is Spark 1.4.1, released on July 15, 2015 (release notes) (git tag) 
1. Choose a Spark release: | 1.4.1 (Jul 15 2015) 
2. Choose a package type: Pre-built for Hadoop 2.6 and later 局 
3. Choose a download type: | Select Apache Mirror 
4. Download Spark: spark-1.4.1-bin-hadoop2.6.tgz 
5. Verify this release using the 1.4.1 signatures and checksums. 


Note: Scala 2.11 users should download the Spark source package and build with Scala 2.11 support. 


图 2-1 Spark 下 载 页 面 


安装 与 运行 测试 应 用 
进入 解压 缩 得 到 的 Spark 安装 目录 ， 执 行 命令 “./bin/run-example SparkPi 10” 运 行 Spark 
提供 的 Example 程序 ， 该 程序 用 于 计算 r 值 。 执 行 结果 如 下 图 2-2 所 示 ， 可 以 看 到 Spark 计 
算得 到 的 Pi 值 约 等 于 3.139516。 


15/08/05 15:19:02 INF0 TaskSetManager: Finished task 9.0 in stage 0.0 (TID 9) in 20 ms on localhost (10/10) 
15/08/05 15:19:02 INF0 DAGScheduler: ResultStage 0 (reduce at SparkPi.scala:35) finished in 1.066 s 
15/88/05 15:19:02 INFO TaskSchedulerImpl: Removed TaskSet 0.0, whose tasks have all completed, from pool 
15/88/05 15:19:02 INFO DAGScheduler: Job 0 finished: reduce at SparkPi.scala:35, took 1.330475 s 
Pi is roughly 3.139516 
15/88/05 15:19:02 INFO SparkUI: Stopped Spark web UI at http://10.4.21.222:4040 
15/08/05 15:19:02 INFO DAGScheduler: Stopping DAGScheduler 
15/08/05 15:19:02 INFO MapOutputTrackerMasterEndpoint: MapOutputTrackerMasterEndpoint stopped 
15/88/05 15:19:02 INFO Utils: path = /tmp/spark-bOca79a8-3472-4747-a581-f444f24f5cc3/blockmgr-f5a45835-2f50-4030-a0f5-ed43353e@ 
;， already present as root for deletion. 
15:19:02 INFO MemoryStore: MemoryStore cleared 
15:19:02 INFO BlockManager: BlockManager stopped 
15:19:02 INFO BlockManagerMaster: BlockManagerMaster stopped 
15:19:02 INFO OQutputCommitCoordinator$OQutputCommitCoordinatorEndpoint: OQutputCommitCoordinator stopped 
15:19:02 INFO RemoteActorRefProvider$RemotingTerminator: Shutting down remote daemon 
15:19:02 INFO RemoteActorRefProvider$RemotingTerminator: Remote daemon shut down; proceeding with flushing remote tran 


15:19:02 INFO SparkContext: Successfully stopped SparkContext 
15:19:02 INFO Utils: Shutdown hook called 


15/08/05 15:19:02 INFO Utils: Deleting directory /tmp/spark-b0ca79a8-3472-4747-a581-f444f24f5cc3 
spark@spark-master:~/spark-1.4.1-bin-hadoop2.6$ | 


丽 


2-2 ”Example 程序 运行 结果 
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LH 运行 Example 程序 时 ， 如 果 系 统 报错 提示 找 不 到 java 文件 ， 说 明 JDK 未 能 被 正确 安装 ， 或 者 环境 变 
量 没有 被 正确 配置 


3. 设置 环境 变量 

在 使 用 Spark 之 前 ， 建 议 读者 将 Spark 的 bin 目录 加 入 到 系统 PATH 环境 变量 当中 ， 这 
样 以 设置 后 在 执行 bn 目录 下 的 程序 时 ， 可 以 直接 使 用 程序 名 ， 例 如 “spark-shell”， 而 无 须 
指定 程序 的 路 径 ， 如 “./bin/spark-shell”， 上 有 具体 设置 步骤 如 下 。 

1) 以 管理 员 权 限 编辑 文件 /etc/profile， 在 文件 尾部 加 入 如 下 语句 ， 保 存 并 退出 。 其 中 
/path/to/spark 需要 替换 成 用 户 的 完整 的 Spark 安装 路 径 。 


下 


export SPARK_HOME="/path/to/spark/" 
export PATH="$SPARK_HOME/bin:$PATH" 


2) 执行 指令 “source /etc/profile”， 完 成 后 在 任意 目录 下 执行 命令 “spark-shell -help”， 
若 没有 提示 命令 找 不 到 ， 则 说 明 设置 成 功 。 
2.1.3 ”使 用 交互 式 Shell 

Spark 提供 了 基于 Scala、Python 以 及 R 语言 的 3 种 交互 式 Shell。 执 行 命令 “spark- 


shell” 可 启动 Spark Scala Shell， 其 界面 如 图 2-3 所 示 。 


: SetCspark); users with modify permissions: SetCspark) 
15/88/05 15:45:37 INFO HttpServer: Starting HTTP Server 
15/88/05 15:45:37 INFO Utils: Successfully started service "HTTP class server' on port 38604. 


version 1.4.1 


Using Scala version 2.10.4 (OpenJDK 64-Bit Server WM, Java 1.7.0_79) 

Type in expressions to have them evaluated. 

Type :help for more information. 

15/08/05 15:45:39 WARN Utils: Your hostname, spark-master resolves to a Loopback address: 127.0.1.1; using 10.4.21.222 instead 
(on interface eth@) 

15/088/05 15:45:39 WARN Utils: Set SPARK_LOCAL_IP if you need to bind to another address 

15/88/05 15:45:39 INFO SparkContext: Running Spark version 1.4.1 

15/068/05 15:45:39 INFO SecurityManager: Changing view acls to: spark 

15/08/05 15:45:39 INFO SecurityManager: Changing modify acls to: spark 

15/08/05 15:45:39 INFO SecurityManager: SecurityManager: authentication disabled; ui acls disabled; users with view permissions| 
: SetCspark); users with modify permissions: Set(spark) 


图 2-3 Spark Scala Shell 启动 界 皇 


读者 可 以 尝试 在 Shell 中 运行 一 个 简单 程序 ， 该 程序 用 于 输出 /etc/passwd 这 一 文件 的 行 
数 。 输 入 完 一 行 按 (Enter〉 键 就 能 立即 看 到 执行 结果 。 输 出 结果 可 能 会 因 不 同 的 系统 环境 


而 异 。 


>>> val lines = sc.textFile("/etc/passwd") 

15/08/05 15:55:14 INFO MemoryStore: ensureFreeSpace(88456) called with curMem=0, 
maxMem=280248975 

/ 省 略 大 部 分 日 志 输出 

15/08/05 15:55:14 INFO SparkContext: Created broadcast 0 from textFile at <console>:21 


>>> lines.count 


14 


/ 省 略 大 部 分 日 志 输 吕 


Em my 


res0 Long = 25 


执行 命令 “pyspark” 可 启动 Spark Python Shel， 其 界面 如 图 2-4 所 示 。 


15/08/05 
15/08/05 
15/08/05 
15/08/05 
15/08/05 


15/08/05 
15/88/05 


:47:17 
:47:17 
:47:17 
:47:17 
:47:17 


:47:17 


15 
15 


:47:17 
:47:17 


INFO SparkEnv: Registering OutputCommitCoordinator 

INFO Utils: Successfully started service "SparkUI” on port 4040 

INF0 SparkUI: Started SparkUI at http://10.4.21.222:4040 

INFO Executor: Starting executor ID driver on host localhost 

INFO Utils: Successfully started service 'org.apache.spark.network.netty.NettyBlockTransferService' on port 4| 


INFO NettyBlockTransferService: Server created on 49423 
INFO BlockManagerMaster: Trying to register BlockManager 
INFO BlockManagerMasterEndpoint: Registering block manager localhost:49423 with 267.3 MB RAM, BlockManagerId(| 


driver, localhost, 49423) 
15/88/05 15:47:17 INFO BlockManagerMaster: Registered BlockManager 


version 1.4.1 


Using Python version 2.7.6 (default, Mar 22 2014 22:59:56) 
SparkContext available as sc, HiveContext available as sqlContext. 
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图 2-4 ”Spark Python Shell 启动 界面 


行 数 统计 程序 的 Python 版 本 如 下 。 


>>> lines = sc.textFile("/etc/passwd") 

15/08/05 15:59:43 INFO MemoryStore: ensureFreeSpace(157248) called with curMem=0, 
maxMem=280248975 

# 省 略 大 部 分 日 志 输出 

15/08/05 15:59:43 INFO SparkContext: Created broadcast 0 from textFile at 
NativeMethodAccessorImpl.java:-2 


>>> lines.countO 


# 省 略 大 部 分 日 志 输出 


23 


执行 命令 “span 


I 


”可 以 启动 Spark R Shell， 其 界面 如 图 2-5 所 示 。 


mgr-a8e2076e-67cc-4f29-9bc7-be8284978412 

15/08/07 12:57:17 INFO MemoryStore: MemoryStore started with capacity 267.3 MB 

15/08/07 12:57:17 INFO HttpFileServer: HTTP File server directory is /tmp/spark-60cf8ba5-231a-4cba-ae4f-18de494b2fd6/http 
d-53296dba-1709-46a3-8158-22894c83c0955 


15/08/07 
15/88/07 
15/08/07 
15/08/07 
15/08/07 
15/08/07 
15/08/07 
15/08/07 


2。 
32: 
12s 
2 
2; 
12; 
了 于; 
人 


port 55469 . 


15/08/67 
15/08/07 
15/08/07 


12: 
es 
12: 


57: 
7 
357: 
人 
7 
57: 
WYs 
S7: 


-7 
57: 
37: 


17 
17 
17 
17 
17 
18 


18 
18 
18 


INFO 
INFO 
INFO 
WARN 
INFO 
INFO 
INFO 
INFO 


INFO 
INFO 
INFO 


Welcome to SparkR! 
Spark context is available as sc, SQL context is available as sqlContext 
During startup - Warning message: 
package “SparkR’ was built under R version 3.1.3 


HttpServer: Starting HTTP Server 

Utils: Successfully started service "HTTP file server” on port 35643. 

SparkEnv: Registering OutputCommitCoordinator 

Utils: Service 'SparkUI' could not bind on port 4040. Attempting port 4041. 

Utils: Successfully started service 'SparkUI' on port 4041. 

SparkUI: Started SparkUI at http://10.4.21.222:4041 

Executor: Starting executor ID driver on host localhost 

Utils: Successfully started service "org.apache.spark.network.netty.NettyBLockTransferService” on 


NettyBlockTransferService: Server created on 55469 

BlockManagerMaster: Trying to register BlockManager 

BlockManagerMasterEndpoint: Registering block manager localhost:55469 with 267.3 MB RAM, BlockMana 
gerId(driver, localhost, 55469) 

15/08/07 12:57:18 INFO BlockManagerMaster: Registered BlockManager 


入 


2-5 SparkR Shell 启动 界面 
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行 数 统计 程序 的 R 语言 版 本 如 下 。 


> lines <- SparkR:::textFile(sc, "/etc/passwd") 
# 15/08/07 13:10:42 INFO MemoryStore: ensureFreeSpace(157288) called with curMem=343050, 
maxMem=280248975 


# 省 


略 大 部 分 日 志 输 出 


# 15/08/07 13:10:42 INFO SparkContext: Created broadcast 2 from textFile at 
NativeMethodAccessorImpl.java:-2 


> count(lines) 


# 省 略 大 部 分 日 志 输出 
[1] 25 


所 有 交互 式 Shell 在 无 输入 字符 情况 下 按 〈Ctl+D 》 (表示 EOF，Windows 下 使 用 《CtrltZ〉) 组 合 
键 ， 可 以 退出 Shell 界面 。Scala Shell、Python Shell 输入 指令 “exit0)”，R Shell 输入 “q0”， 之 后 按 
《Enter》 键 ， 具 有 同样 的 效果 。 


2.1.4 搭建 


Spark Standalone 集群 


Spark 支持 3 种 集群 资源 管理 器 ， 分 别 是 Standalone、YARN 和 Mesos， 其 中 Standalone 


为 Spark 自 带 ， 无 须 ) 


j 户 再 额外 安装 和 部 署 其 他 的 资源 管理 器 。 本 章 会 以 Standalone 为 例 ， 


介绍 如 何 搭建 和 管理 一 个 Spark 集群 ， 对 YARN 和 Mesos 感 兴趣 的 读者 可 以 参考 官方 提供 的 


文档 。 


1. SSH 配置 


为 了 实现 无 缝 工作， 安装 完毕 SSH 上 
点 能 够 无 须 输 入 密码 即 可 登录 集 和 
在 master 节点 上 ， 执 行 命令 “ssh-keygen -t dsa” 生 成 SSH 私 钥 ， 妇 


按 (Enter〉 键 即 可 ， 执 行 结果 如 图 2-6 所 示 。 
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spark@master:~/spark$ ssh-keygen -t dsa 
Generating public/private dsa key pair. 


Enter file in which to save the key (/home/spark/.ssh/id_dsa): 


Enter passphrase (empty for no passphrase): 
Enter same passphrase again: 


Your identification has been saved in /home/spark/.ssh/id_dsa. 
Your public key has been saved in /home/spark/.ssh/id_dsa.pub. 


The key fingerprint is: 
b8:bf:1b:fd:57:18:de:d7:5c:03:e4:6b:16:0b:08:92 spark@master 
The key's randomart image is: 

+--[ DSA 1024]----+ 

| ev. 0.0 

E。 4 0% 


4= 


图 2-6 生成 SSH 私 钥 


的 客户 端 与 服务 端 之 后 ， 需 要 允许 master( 主 ) 市 
fF 内 的 所 有 机 器 ， 我 们 可 以 通过 创建 公 钥 和 私 钥 对 来 实现 。 


I 果 生 成 过 程 需要 输入 ， 


接 下 来 使 用 ssh-copy-id 命令 将 私 钥 加 入 到 所 有 节点 (包括 master 节点 本 身 ) 
的 .ssh/authorized_keys 文件 中 ， 例 如 可 以 使 用 命令 “ssh-copy-id spark@slavel1” 实 现 slavel 
节点 上 Spark 用 户 的 无 密码 登录 ， 执 行 结果 如 图 2-7 所 示 。 


spark@master:~/spark$ ssh-copy-id spark@slavel 

/usr/bin/ssh-copy-id: INFO: attempting to log in with the new key(s), to filter out any that are already 
installed 

/usr/bin/ssh-copy-id: INFO: 1 key(s) remain to be installed -- if you are prompted now it is to install 

the new keys 


Number of key(s) added: 1 


Now try logging into the machine, with: “ssh "sparkesLave1"” 
and check to make sure that only the key(s) you wanted were added. 


spark@master:~/spark$ | 


图 2-7 ”实现 无 密码 登录 


2. Spark 配置 文件 
在 master 节点 上 ， 进 入 Spark 安装 目录 下 的 conf 目录 ， 使 用 如 下 命令 得 到 slaves 和 
spark-env.sh 文件 。 


$ cp slaves.template slaves 


$ cp spark-env.sh.template spark-env.sh 


编辑 spark-env.sh 文件 ， 在 文件 末尾 加 入 “export JAVA_HOME=/path/to/java” 行 ， 其 中 
读者 需要 把 “/path/to/java” 替 换 成 自己 实际 的 Java 安装 目录 。 继 续 编 辑 slaves 文件 ， 加 入 所 
有 工作 节点 的 主机 名 ， 每 个 节点 占据 一 行 。 

3. 复制 Spark 目录 

接 下 来 把 配置 好 的 Spark 目录 复制 到 所 有 节点 上 ， 目 录 所 存放 的 位 置 在 所 有 节点 上 都 必须 
是 一 致 的 。 可 以 使 用 scp 命令 来 完成 此 项 工作 ， 如 下 命令 为 一 条 示例 ， 用 于 将 maste 节点 上 的 
spark-1.4.1-bin-hadoop2.6 目录 复制 到 slavel 市 点 的 /home/spark/spark 目录 下 ， 读 者 可 以 根据 实际 
情况 来 修改 。 如 果 节 点 数目 比较 多 的 话 ， 建 议 读者 编写 一 个 Shell 脚本 来 完成 此 项 任务 。 


$ scp -r spark-1.4.1-bin-hadoop2.6 spark @slavel:/home/spark/spark/ 


4. 运行 与 关闭 Standalone 集群 

回 到 Spark 的 安装 目录 ， 执 行 命令 “sbin/start-all” 即 可 启动 集群 上 的 所 有 节点 。 集 群 启 
动 完 毕 后 ， 打 开 浏 览 器 ,访问 http://masternode:8080， 其 中 masternode 需要 替换 成 自己 
master 节点 的 真实 卫 或 者 主机 名 ， 可 以 看 到 Web 监控 界面 如 图 2-8 所 示 ， 该 页 面 显示 集群 
中 所 有 节点 的 信息 ， 以 及 曾经 运行 、 正 在 运行 的 应 用 程序 的 相关 情况 。 

切换 到 Spark 的 安装 目录 ， 执 行 命令 “sbin/stop-all.sh” 即 可 关闭 集群 ，Spark 会 自动 关 
闭 正在 运行 的 所 有 节点 。 

5. 运行 Example 程序 

执行 如 下 的 spark-submit 命令 可 以 向 搭建 好 的 Spark 集群 提交 之 前 曾经 运行 过 的 
Example 程序 ， 其 中 masternode 需要 替换 成 读者 自己 master 节点 的 主机 名 。spark-submit 命 
令 的 使 用 会 在 下 一 节 中 具体 介绍 。 


A 


$ spark-submit --master spark://masternode:7077 examples/src/main/python/pi.py 
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one 
rE Al 


SpaiK’ ,,, 


Sparh Master mi aspen 


192.168.56.101;6080 


Spark Master at spark://master:7077 


Workers 1 

Cores: 1 Total 0Used 

Momory: 512.0 MB Totl, 00 B Userd 
Appilications: 0 Runnim ww. 0 Completed 
Drivers: 0 Rurning, 0 Completed 


Status: ALIVE 
Workers 

Worker Id Address State 
worker-20150807141249-192.168.86.101-44834 192,168.56,.101244535 ALIVE 
Running Applications 

Application ID Name Cores Memory per Node Submitted Time 


图 2-8 ”Web 监控 界 卫 


n | 


已 号 g9@B 


Cores Memory 
1 人 Used) 5120 MB (0.0 8 Used) 
User State Duration 


刷新 Spark Web 界面 ， 可 以 看 到 程序 的 运行 情况 ， 如 图 2-9 所 示 。 


Cn c 192.168.56.101:8060 


rer ore apo 


parx Master aa spar Appacaoor Python 
Workers: 1 

Cores: 1 Total, 1 Used 

Memory: 512.0 MB Total. 512.0 MB Used 

Applications: 1 Running. 0 Completed 

Drivers: 0 Running. 0 Completed 


Jo 


加 二 0DODEHz 


Status; ALIVE 

Workers 

Werker i Address Siate Cores Memory 
worker20150807141249-192,168.56.101-44835 192.168.56.101-44835 ALVE 10Used $120MB(512.0MB Used 


Running Applications 


Appication ID Name Cores Memory per Node 


Submitted Time User State Duration 
mpp-20150807142438-0000 Pythonpl 1 512.0 MB 201S/08/07 14-24:38 Spark RUNNING 3s 
Completed Applications 
Appication ID Name Cores Memory per Node Submitted Time User State Duration 


图 2-9 程序 运行 情况 界 了 下 


| 2.2 Spark 开发 环境 配置 


Shell 


在 上 一 节 中 介 


绍 了 如 何 使 用 Spark Shell 来 执行 Spark 语句 ， 可 以 感受 到 ， 
能 够 立即 返回 语句 执行 的 结果 ， 因 此 非常 适合 
Spatk 还 支持 开发 者 编写 独立 的 应 月 


由 于 交互 式 


于 即席 查询 等 数据 分 析 任务 ， 此 外 ， 
程序 ，Spark 提供 了 基于 Scala、Java、Python 以 及 R 等 
编程 语言 的 API， 本 节 会 介绍 如 何 调用 这 些 接口 去 编写 程序 ， 如 何 编译 和 构建 项 目 ， 


何 向 Spark 提交 应 用 程序 以 运行 。 
2.2.1 Spark 独立 应 用 程序 


Spark 项 目的 构建 不 依赖 于 操作 系统 中 是 否 ri 


具 来 辅助 完成 项 目的 构建 、 源 码 的 编译 、 依 赖 的 解决 等 工作 ， 
Maven、Scala + SBTO” 的 搭配 组 合 。Python 和 R 本 身 是 解释 型 0 言 ， 不 需要 使 用 项 目 构 建 工具 来 


以 及 如 


开发 者 一 般 会 采用 项 目 构建 工 
常情 况 下 开发 者 会 采用 “Java + 


辅助 生成 二 进 制 文件 或 者 字 节 码 文件 ， 因 此 直接 将 脚本 文件 


理 项 


GO Maven 和 SBT 都 是 基于 JUM 项 
目的 构建 、 


提交 给 Spark 运 行 即 可 。 


的 编译 和 管理 工具 。Maven 是 基于 项 


对 象 模型 POM， 可 以 通过 一 小 段 描 述 信 息 来 管 


报告 和 文档 的 软件 项 目 管理 工具 。SBT 是 对 Scala 或 Java 语言 进行 编译 的 一 个 工具 ， 类 似 于 Maven。 


不 同 语言 编写 的 Spark 应 | 


示 ， 读 者 可 根据 需求 自 


所 依赖 的 编译 器 / 解释 器 、 项 目 构建 工 
行 下 载 ， 在 此 不 做 过 多 介绍 。 


表 2-1 基于 不 同 语言 的 Spark 独立 应 用 所 依赖 工具 


如 表 


2-1 所 


语言 编译 器 / 解释 器 项 目 构建 工具 
Scala Scala 2.10.x SBT 0.13.0+ 
Java Java 6+ Apache Maven 3.0.4+ 
Python Python 2.6+ 
R R 3.1+ /Java 6+ 


当 上 述 的 工具 安装 完毕 2 


1. spark-submit 工具 


spark-submit 命 


命令 提交 Java、 


后 ， 束 可 以 


今 


Scala 项 目 导出 的 


的 sparkR 命令 提交 ， 后 面 会 在 编写 R 语言 程序 部 分 单独 进行 介 


spark-submit 命令 


的 格式 如 下 。 


/bin/spark-submit \ 
--Class <main-class> 


--master <master-url> \ 
--deploy-mode <deploy-mode> \ 
--Conf <key>=<value> \ 


.…# other options 


<application-jar> \ 


[application-arguments] 


其 中 ， 销 | 


] 于 部 署 一 个 应 
Jar 包 和 Python 项 目 


上 


的 脚本 文 伯 


的 Option 及 其 含义 如 表 2-2 所 示 ， 具 体 选 项 请 参 


o 


始 编写 基于 不 同 语言 的 Spark 独立 应 用 了 。 


程序 在 Spark 集群 中 运行 ， 在 后 面 ， 我 们 会 使 用 该 
F，R 脚本 文件 则 使 用 单独 


敌 “spark-submit -help” 命 


仿 的 输出 结果 ， 在 此 不 一 列 出 。 
表 2-2 spark-submit 命令 常用 的 Option 选项 及 其 含 
Option 含义 
--Classs 入 口 类 名 ， 对 于 Java 和 Scala 程序 来 说 是 包含 main0 函数 的 类 的 名 字 ，Python 程序 则 无 须 指定 该 选项 
--master 集群 master 节点 的 地 址 ， 该 选项 的 具体 可 选 值 会 在 表 2-3 中 详细 说 明 
--name 应 用 程序 名 ， 该 值 会 在 Spark Web 页 面 和 Spark 日 志文 件 中 被 用 于 标识 该 应 用 程序 


--deploy-mode 


王 门 " 


Driver 程序 


spark-submit 命令 的 机 器 上 


启动 Driver 程序 。 若 设置 为 cluster， 则 Spark 会 在 其 中 一 台 工 作 节点 


程序 部 署 模式 ， 可 选 值 为 “client” 和 “cluster”，client 为 默认 值 。 若 设置 为 client，Spark 会 在 执行 


运行 


-ars 


--files 


录 下 


指定 需要 被 上 传 的 文 


指定 第 三 方 依赖 Jar 包 ， 如 有 多 个 Jar 包 则 以 英文 逗号 分 隔 开 ， 文 件 会 被 上 传 到 每 一 个 节点 的 
“CLASS PATH” 路径 下 


牛 ， 如 果 多 个 文件 则 以 英文 逗号 分 隔 开 ， 文 件 会 被 上 传 到 每 


个 节点 的 程序 运行 


--eXxecutor-memory 


肯定 为 executor 


进程 分 配 的 内 存 大 小 (如 1000MB，2GB 等 )， 默 认 值 为 1GB 


--driver-memory 


肯定 为 Driver 进 


程 进 


行 分 配 的 


存 大 小 (如 1000MB，2GB 等 )， 默 认 值 为 512MB 


--py-files 


类 似 市 -jars 参数 ， 


隔 开 ， 有 多 个 py 文件 


--py-files 


于 上 传 依赖 的 .py、.zip 和 .egg 文件 。 如 有 多 个 文件 则 以 英文 逗号 
则 建议 打包 成 ,zip 或 者 .egg 文件 
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--master 选项 可 选 值 如 表 2-3 所 示 。 


表 2-3 spark-submit 命令 --master 选项 可 选 参数 值 


Option 含 义 
local 以 本 地 单线 程 方 式 运 行 Spark， 由 于 只 有 一 个 线程 ， 因 此 无 法 实现 任务 的 并 行 处 理 
local[N] 以 本 地 N 个 线程 方式 运行 Spark， 可 用 于 模拟 集群 
local[*] 以 本 地 模式 运行 ， 线 程 数 等 于 机 器 内 核 数 (Core Number) 
spark://host:port 连接 到 指定 的 Standalone 集群 来 运行 Spark 程序 
Te 连接 到 YARN 集群 ， 以 Client 模式 来 运行 Spark 程序 。 集 群 的 相关 信息 ， 可 以 在 
7 HADOOP_CONF_DIR 环境 变量 所 指向 目录 〈 即 Apache Hadoop 配置 目录 ) 内 的 配置 文件 中 找到 
连接 到 YARN 集群 ， 以 Cluster 模式 来 运行 Spark 程序 。 集 群 的 相关 信息 ， 可 以 通过 


Yan HADOOP_CONF_DIR 环境 变量 所 指向 目录 〈 即 Apache Hadoop 配置 目录 ) 内 的 配置 文件 中 找到 
mesos://host:port 连接 到 Mesos 集群 来 运行 Spark 程序 
[0 Apache Spark 程序 内 部 通过 SparkConf 配置 的 属性 值 拥有 最 高 的 优先 级 ， 其 次 才 是 传递 给 spark-submit 


命令 参数 中 的 配置 项 ， 在 后 面 的 示例 程序 中 会 看 到 如 何 通过 SparkConf 来 配置 配置 项 。 


2. Scala 独立 应 用 程序 


之 前 重新 改写 在 Shell 中 执行 的 Line Count 程序 ， 保 存 成 LineCount.scala 文件 的 代码 


如 下 。 


import org.apache.spark.{ SparkContext, SparkConf} 

import org.apache.spark.SparkContext._ 

object LineCount{ 

def main(args: Array[String]) { 

上 创建 SparkContext 实例 半 
Val conf = new SparkConfO).setAppName("Line Count Program") 
val sc = new SparkContext(conf) 
放 统计 行 数 */ 
val lines = sc.textFile("/etc/passwd"); 


Println(lines.count) 


} 
接 下 来 编写 build.sbt 文件 ， 用 于 定义 项 目 ， 代 码 如 下 。 


name := "Line Count" 

version := "1.0" 

scalaVersion := "2.10.4" 

libraryDependencies += "org.apache.spark" %% "spark-core" % "1.4.1" 


为 了 保证 SBT 能 够 正常 运作 ， 需 要 把 LineCount.scala 与 build.sbt 文件 
目录 结构 内 。 
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放 在 如 下 的 项 目 


上 一 build.sbt 


上 -一 src 
[一 main 


-一 scala 
[一 LineCount.scala 


进入 项 
src/main/scala 编译 上 


目 根 目录 ， 执 行 命令 “sbt clean package”，SBT 会 开始 构建 项 目 
出 来 的 class 文件 打包 成 一 个 Jar 文件 ， 在 此 期 间 SBT 会 自动 从 仓库 中 下 


载 编译 
2.10/ 目 


孙 下 自 


动 生成 所 需要 的 Jar 文件 。 


通过 spark-submit 命令 ， 将 刚刚 生成 的 Jar 包 提交 给 Spark 运行 。 


$ spark-submit \ 


--Class 


LineCount \ 


--master local \ 
-target/scala-2.10/line-count_2.10-1.0.jar 


运行 结果 如 图 2-10 所 示 。 


15/08/06 
15/08/06 
15/08/06 
15/08/06 
15/08/06 
15/08/06 
15/08/06 
15/08/06 
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15/08/06 
15/08/06 
15/08/06 
15/08/06 
15/08/06 


15/08/06 
15/08/06 
15/08/06 
15/08/06 
15/08/06 
15/08/06 
15/08/06 


09:27: 
09 


09; 

09 

09: 
09:27: 
09:27: 


09; 
09 
09 
09 
09 
09: 
09: 


INF0 deprecation: mapred.task.is.map is deprecated. Instead, use mapreduce.task.ismap 


INF0 deprecation: mapred.task.partition is deprecated, Instead, use mapreduce.task.partition 


INFO deprecation: mapred. job.id is deprecated. Instead, use mapreduce. job.id 


INFO Executor: Finished task 0.0 in stage 0.0 (TID 0). 1830 bytes result sent to driver 


INFO TaskSetManager: Finished task 0.0 in stage 0.0 (TID 0) in 127 ms on localhost (1/1) 


INF0 TaskSchedulerImpl: Removed TaskSet 0.0, whose tasks have all completed, from pool 
INF0 DAGScheduler: ResultStage 0 (count at LineCount.scala:12) finished in 0.127 s 
INFO DAGScheduler: Job 0 finished: count at LineCount,.scala:12, took 0.340840 s 


INF0 SparkContext: Invoking stop() from shutdown hook 

INFO SparkUI: Stopped Spark web UI at http://10.4.21.222:4040 

INF0 DAGScheduler: Stopping DAGScheduler 

INFO MapOQutputTrackerMasterEndpoint: MapOutputTrackerMasterEndpoint stopped! 


>» 


并 将 


与 运行 程序 所 依赖 的 Jar 包 ， 所 用 时 间 可 能 会 比较 长 。 构 建 完成 后 会 在 target/scala- 


INF0 Utils: path = /tmp/spark-e671fbda-683c-4519-a864-ccf8b6a05f1le/blockmgr-85ff5ecd-36f0-4b57-a 
，aqaLready present as root for deletion. 


INFO MemoryStore: MemoryStore cleared 
INFO BlockManager: BlockManager stopped 
INFO BlockManagerMaster: BlockManagerMaster stopped 


INFO QutputCommitCoordinator$O0utputCommitCoordinatorEndpoint: QutputCommitCoordinator stopped! 


INFO SparkContext: Successfully stopped SparkContext 
INFO Utils: Shutdown hook called 
INFO Utils: Deleting directory /tmp/spark-e671fbda-683c-4519-a864-ccf8b6a05f1e 


spark@spark-master:~/tmp/LineCount$ | 


3. Java 独立 应 用 程序 


编写 如 下 代码 ， 保 存 成 LineCount.java 文件 。 


import org.apache.spark.api.java.*; 


import org.apache.spark.SparkConf; 


import org.apache.spark.api.java.function.Function; 


public class LineCount { 


public static void main(String[] args) { 


/创建 SparkContext 实例 对 
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SparkConf conf = newSparkConf().setAppName("Line Count Program Java Version"). set 


Master("local"); 
JavaSparkContext sc = new JavaSparkContext(conf); 
谨 统计 文件 行 数 沁 
JavaRDD<String> lines = sc.textFile("/etc/passwd"); 


System.out.println(lines.count(); 


} 


<project> 
<groupId>me.ihainan</groupId> 
<artifactId>line-count</artifactId> 
<modelVersion>4.0.0</modelVersion> 
<name>Line Count</name> 
<packaging>jar</packaging> 
<version> 1.0</version> 
<dependencies> 

<dependency> 
<groupld>org.apache.spark</groupld> 
<artifactId>spark-core_2.10</artifactId> 
<version>1.4.1</version> 
</dependency> 

</dependencies> 

</project> 


目录 下 执行 指令 “mvn clean package” 构 建 项 目 ， 项 目 构 建 
成 对 应 的 Jar 包 。 


上 一 pom.xml 


上 -一 src 
上 -一 main 
[-- 一 java 
[一 LineCount.java 


执行 如 下 的 命令 ， 将 生成 的 Jar 包 提 交 给 Spark 执行 。 


$ spark-submit \ 
--class "LineCount" \ 
--master local \ 


target/line-count-1.0.jar 


4. Python 独立 应 用 程序 
编写 如 下 所 示 代 码 ， 保 存 成 LineCount.py 文件 。 
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LineCountjava 与 pom.xml 文件 放 在 如 下 的 文件 目录 结构 内 ， 与 SBT 类 似 ， 在 项 目 


i 


编写 pom.xml 文件 ， 该 文件 的 作用 类 似 于 之 前 的 build.sbt 文件 ， 代 码 如 下 。 


后 会 自动 在 target 目录 下 生 


#-*- coding:utf-8 -*- 

from pyspark import SparkContext 

# 创建 SparkContext 实例 

sc = SparkContext("local", "LineCount") 
# 统计 文件 行 数 


lines = sc.textFile("/etc/passwd") 


print lines.count() 


Python 脚本 无 须 编 译 ， 因 此 只 需要 切换 到 LineCount.py 文件 所 在 目录 ， 使 用 spark- 
submit 来 提交 程序 即 可 。 


$ spark-submit \ 


--master local \ 


LineCount.py 


执行 结果 如 图 2-11 所 示 。 


15/08/07 13:28:48 INFO DAGScheduler: Job 0 finished: count at /home/spark/tmp/LineCountPython/LineCount.py:10, took 0.595 
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15/08/07 
15/08/07 
15/08/07 
15/08/07 
15/08/07 
15/08/07 
15/08/07 
15/08/07 
15/08/07 
15/08/07 
15/08/07 
15/08/07 
15/08/07 
15/08/07 


:28:48 
:28:48 
:28:48 
4 
:28:48 
:28:48 
:28:48 
:28:48 
:28:48 
:28:48 
:28:48 
:28:48 
:28:48 
:28:48 


; 


INF0 SparkContext: Invoking stop() from shutdown hook 

INFO SparkUI; Stopped Spark web UI at http://10.4.21.222:4040 

INFO DAGScheduler: Stopping DAGScheduler 

INFO MapOQutputTrackerMasterEndpoint: MapOutputTrackerMasterEndpoint stopped! 

INFO Utils: path = /tmp/spark-b9a58a14-adf9-49b7-9131-8ba2185e8066/blockmgr-ff219d04-d7e3-4d53-a3d1-c1 
INFO MemoryStore: MemoryStore cleared 

INF0 BlockManager: BlockManager stopped 

INFO BlockManagerMaster: BlockManagerMaster stopped 

INF0 QutputCommitCoordinator$OQutputCommitCoordinatorEndpoint: QutputCommitCoordinator stopped! 

INFO SparkContext: Successfully stopped SparkContext 

INFO Utils: Shutdown hook called 

INFO Utils: Deleting directory /tmp/spark-b9a58a14-adf9-49b7-9131-8ba2185e8066 

INFO RemoteActorRefProvider$RemotingTerminator: Shutting down remote daemon， 

INFO RemoteActorRefProvider$RemotingTerminator: Remote daemon shut down; proceeding with flushing remo 


spark@spark-master:~/tmp/LineCountPython$ | 


图 2-11 Python 提交 程序 运行 结果 


5. R 独立 应 用 程序 


编 


写 如 下 所 示人 代码， 保存 成 LineCount.R 文件 。 


library(SparkR) 
sc <- sparkR.init(appName="Line Count") 


lines <- SparkR:::textFile(sc, "/etc/passwd") 


print(count(lines)) 


sparkR.stop 


切换 到 LineCount.R 文件 所 在 目录 ， 执 行 如 下 命令 提交 R 程序 。 


$ sparkR LineCount.R local 


执行 结果 如 图 2-12 所 示 。 


; 
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15/08/07 13:25:05 INFO DAGScheduler: ResultStage 9 (collect at NativeMethodAccessorImpl .java:-2) finished in 0.7 
15/08/07 13:25:05 INFO TaskSchedulerImpl: Removed TaskSet 0.0, whose tasks have all completed, from pool 
15/88/07 13:25:05 INFO DAGScheduler: Job 9 finished: collect at NativeMethodAccessorImpl .java:-2, took 0.843269 


[1] 25 
function © 
{ 
env <- .sparkREnv 
if (exists(".sparkRCon", envir = env)) { 
if (exists(".sparkRjsc", envir = env)) { 


sc <- get(".sparkRjsc", envir = env) 


callJMethodCsc, "stop") 
rm(C".sparkRjsc", envir = env) 


} 


if (exists(".backendLaunched", envir = env)) { 
callJStaticC"SparkRHandler", “stopBackend") 


} 
conn <- get(".sparkRCon", envir = env) 
closeCconn) 
rmC" .sparkRCon”", envir = env) 
rmC" .scStartTime"，envir = env) 

} 

if (exists(".monitorConn", envir = env)) { 
conn <- get(".monitorConn", envir = env) 
closeCconn) 
rmC" .monitorConn", envir = env) 


} 


图 2-12 


2.2.2 ”构建 IDE 开发 环境 


丽 


R 程序 执行 结果 


在 实际 的 项 目 开 发 过 程 中 ， 建 议 读者 使 用 熟悉 的 IDE 来 管理 与 构建 项 目 。 下 面 以 IntelliJ 
IDEA〈 简 称 IDEA 为 例 )。IDEA 跨 平 台 ， 可 原生 运行 在 Windows、Linux 以 及 OS X 等 操作 


| 
AC 


系统 之 上 ; 社区 版 免费 供 开 发 者 使 用 ， 


以 应 对 一 般 的 需求 ， 内 置 对 Maven 的 支持 ; 


安装 插件 可 实现 对 Scala、Python、SBT 的 额外 支持 。IDEA 的 诸多 特性 能 够 极 大 提高 Spark 


程序 员 的 开发 效率 。 在 本 节 的 最 后 会 介绍 如 何 使 / 


的 项 目 。 
1. 下 载 与 安装 IntelliJ IDEA 


IDEA 提供 弃 舰 版 和 社区 版 两 个 版 本 供用 户 下 载 ， 如 图 
基本 能 够 满足 Spark 的 开发 需求 ， 在 此 建议 读者 下 载 免 费 版 本 ， 


IDEA 。 


IDEA 来 构建 与 运行 


1 


Download IntelliJ IDEA 14.1 


Windows 


Ultimate Edition 


Mac OSX Unux 


Versiom 14.1.4 Bulld: 141.15324 Released: June 


Full-fearured IDE forJVM-based and poyglot development 
Java EE, Spring/Hibernate and other technologjes support 
Deployment and debugging with most application servers 


Duplicate code search, dependency Structure matrix, etc. 


Download Ultrnate 


Download previous versions of Inteilij IDEA 


图 2-13 
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19rh, 2015 


System requirements 


个 基于 Scala 语言 


2-13 所 示 。 社 区 版 所 提供 的 功能 
并 按照 官方 说 明 安装 


See whats new in Intelll] IDEA 14.1 » 


nstallation Instructions 


Community Edition 


Lightweight IDE for Java SE, Groovy & Scala development 
Powerful environment for bullding Google Androld apps 


Integration with JUnit TestNG, popular SCMs, Ant & Maven 


Free, open-souree (aet the source code), Apache 2 iconse 


Download Community 


IDEA 下 载 界面 


安装 Scala 插件 
IDEA， 依 次 单 击 表单 


栏 的 File 一 Setting， 出 现 IDEA 的 设置 界面 ， 单 击 左 侧 的 
Plugins 命令 ， 单 击 弹出 菜单 左下 角 的 Install JetBrains plugin 按钮 ， 在 弹出 菜单 上 方 的 搜索 栏 
中 输入 Scala， 单 击 出 现 的 搜索 结果 ， 并 单 击 右 侧 的 Install plugin 按钮 ， 如 图 2-14 所 示 。 等 
待 IDEA 上 自动 下 载 和 安装 Scala 插件 ， 安 装 完毕 后 重启 IDEA 即 可 。 


图 2-14 安装 Scala 插件 


3. 创建 SBT 项 目 
重新 启动 IDEA 后 ， 依 次 单 击 菜单 栏 的 ee 以 新 建 项 目 ， 相 比 安装 Scala 
重 件 之 前 ， 会 多 出 创建 Scala 项 目 选 项 。 单 击 Scala 命令 ， 选择 SBT， 单 击 Next 按钮 ， 如 


图 2-15 所 示 。 设 置 向 导 页 面 中 输入 项 目 名 和 项 目 路 径 ，Scala Version 选择 2.10.5， 勾 选 Use 
auto-import 选项 ， 单 击 Finish 按钮 ， 如 图 2-16 所 示 。 


Ee 


漳 


图 2-15 创建 SBT 项目 
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图 2-16 ”配置 新 项 目 信 息 


创建 项 目 完毕 后 ，IDEA 会 自动 加 载 项 目 并 下 载 相关 依赖 包 ， 右 下 角 会 提示 “1 process 
running” 此 时 项 目 窗口 显示 的 项 目 目录 内 容 需 等 待 项 目 加 载 完 毕 之 后 才 会 完整 显示 。 

4. 构建 项 目 

编辑 项 目 根 目录 下 的 build.sbt 文件 ， 在 底部 加 上 语句 “libraryDependencies += 
"org.apache.spark"”%% "spark-core”% "1.4.1"””， 保存 。 由 于 之 前 创建 项 目 时 色 选 了 Use auto- 
import 选项 ， 所 认 IDEA 会 自动 下 载 相关 依赖 包 ， 如 图 2-17 所 示 ， 此 时 等 待 依赖 包 下 载 和 
解析 完毕 。 


neCount - [~/ideaprojects/LneCount] - [linecount] - ~/ideaprojects/LineCount/bulld.sbt - Intell IDEA 14.1.4 


图 2-17 构建 项 
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接 下 来 创建 一 个 Scala 程序 。 右 键 依次 单 击 src 一 main 一 scala， 弹 出 来 的 菜单 中 依次 选择 
New 一 Scala Class， 如 图 2-18 所 示 ， 输 入 类 名 ， 选 择 创建 Object， 按 (Enter〉 键 在 新 弹出 


的 文本 编辑 窗口 中 编写 Scala 代码 。 


LineCcount - [~/deaprojects/LineCount] - Intellly IDEA 14.1,4 


图 2-18 创 


建 


Scala 程序 


编号 完毕 后 ， 右 键 单 击 main 函数 ， 在 弹出 的 菜单 中 选择 Run 'LineCount 命令 ， 如 图 2-19 


所 示 ，IDEA 会 自动 创建 一 个 应 用 ，main 函数 作为 应 用 的 入 口 ， 并 运行 程序 。 


Unecount - [~/ideaprojects/LineCount] - [inecount] - ~/ideaprojects/LineCount/src/main/scala/LineCount,scala -intellD IDEA 14.1.4 


图 2-19 运行 Scala 程序 
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程序 执行 结果 如 图 2-20 所 示 。 


图 2-20 Scala 程序 运行 结果 


5. 导出 Jar 包 

菜单 栏 中 依次 单 击 File 一 Project Structure， 在 弹出 的 窗口 的 侧 边栏 中 依次 单 击 一 “+?” 
一 JAR 一 From modules with dependencies， 弹 出 窗口 中 选择 自己 编写 的 类 ， 选 择 输出 Jar 包 的 位 
置 ， 单 击 OK 按钮 即 可 。 详 细 操 作 如 图 2-21、 图 2-22 和 图 2-23 所 示 。 完 成 后 菜单 栏 依次 点 击 
Build 一 Build Artifaces， 编 译 生 成 Jar 包 ， 此 后 就 能 使 用 spark-submit 来 提交 生成 的 Jar 包 。 


图 2-21 输出 Jar 包 
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Create JAR From Modules 
Bs linecount 


Main Class: LineCount 


9 extract to the target JAR 


copy to the output directory and link via manifest 


/home 


Include tests 


Project Structure 


Artifacts 


content of elements 


图 2-23 ”配置 输出 信息 


2.3 ”Spalk 编译 环境 配置 


从 Spark 
Hadoop、Hive 


图 2-22 ”配置 输出 信息 


者 ， 读 者 希望 通过 阅读 和 调试 Spark 源码 来 深入 理解 其 内 部 机 制 ， 这 时 候 就 需要 


官网 上 下 载 编译 好 的 安装 包 ， 并 不 一 定 能 够 满足 需求 ， 例 如 安装 包 适 配 的 
版 本 或 者 Scala 版 本 与 集群 上 的 版 本 不 一 致 ， 导 致 Spark 无 法 正常 运作 ; 或 


自己 去 手动 
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编译 Spark， 本 节 将 会 讲述 如 何 搭建 一 个 Spark 源码 编译 环境 以 及 如 何 去 编 译 Spark 源码 。 
2.3.1 ”使 用 Maven 编译 项 目 源码 


尽管 可 以 使 用 IDEA 直接 导入 Spark 源码 和 构建 项 目 ， 但 在 实际 编译 过 程 中 ， 会 出 
现 许 多 异常 和 错误 ， 解 决 步骤 也 比较 烦琐 ， 因 此 建议 读者 先 在 命令 行 下 使 用 Maven 或 者 
SBT 编译 整个 项 目 ， 再 在 IDEA 中 导入 编译 好 的 项 目 文件 。 对 直接 使 用 集成 开发 环境 
(Integrated Development Environment，IDE) 编译 源码 感 兴趣 的 读者 也 可 以 参考 官方 提供 文 
档 〈http:/spark.apache.org/docslatesVbuilding-spark.html ) 中 的 Building Spark with IntelliJ 
IDEA or Eclipse 小 节 。 

1. 下 载 Spark 源码 

访问 Spark 下 载 页 ， 这 次 不 选择 预 编译 的 二 进 制 包 ， 而 是 选择 下 载 Source Code[Can 
build several Hadoop versions]， 如 图 2-24 所 示 。 执 行 命令 “tar -zxvf spark-1.4.1.tgz” 解 压缩 
下 载 好 的 源码 包 。 


站 


hed 


Download Spark 


The latest release of Spark is Spark 1.4.1, released on July 15, 2015 (release notes) (git tag) 


=h 


. Choose a Spark release: 1.4.1 (Jul 15 2015) 上 


.Choose a package type: Source Code [can build several Hadoop versions] S| 


2 
3. Choose a download type: ， Select Apache Mirror 四 
4. Download Spark: spark-1.4.1.tgz 

5. 


. Verify this release Using the 1.4.1 signatures and checksums. 


Note: Scala 2.11 users should download the Spark source package and build with Scala 2.11 support. 


图 2-24 下 载 Spark 源码 


2. 设置 Maven 内 存 限制 
官方 推荐 使 用 Maven 来 编译 项 目 ， 由 于 Maven 工具 默认 分 配 的 内 存 比 较 小 ， 因 此 需要 
将 其 内 存 上 限 调整 为 一 个 合适 值 ， 执 行 的 命令 如 下 。 


$ export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m" 


3. 编译 源码 与 构建 发 行 版 

Spark 允许 使 用 Maven、SBT 以 及 Zinc 数据 库 来 编译 源码 和 构建 项 目 ， 源 码 目 录 下 的 
build 子 目 录 内 提供 了 相应 的 Shell 脚本 文件 ， 用 于 检查 系统 中 是 否 已 经 存在 所 需 的 构建 工 
， 如 果 没 有 的 话 会 自动 从 网 络 上 下 载 ， 此 外 ， 当 读者 使 用 其 中 一 种 工具 进行 项 目 构建 时 ， 
却 本 文件 会 自动 下 载 其 他 两 种 构建 工具 。 

以 Maven 为 例 ， 构 建 一 个 可 适 配 于 Hadoop 2.4 版 本 的 Spark 的 命令 如 下 。 


二 


$ build/mvn -Pyarn -Phadoop-2.4 -Dhadoop.version=2.4.0 -DskipTests clean package 


Hadoop 版 本 所 对 应 的 Maven 版 本 简介 如 表 2-4 所 示 。 其 他 更 多 选项 与 参数 读者 可 参考 
官方 提供 的 项 目 构 架 文 档 。 
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表 2-4 Hadoop 版 本 对 应 的 Maven 版 本 简介 


Hadoop 版 本 Maven Profile 
1.X 一 2X hadoop-1 
2.2.X hadoop-2.2 
2.3.X hadood-2.3 
2.4.x hadoop-2.4 
2.6.x 或 者 更 高 版 本 hadoop-2.6 


编译 过 程 中 会 自动 从 Maven 仓库 中 下 载 所 需 的 依赖 包 ， 受 网 络 环境 影 
的 时 间 也 会 很 长 ， 编 者 在 Ubuntu 14.04 上 
时 ， 由 于 无 需 重 新 下 载 依 赖 包 ， 时 间 上 会 快 很 多 。 编 译 完成 后 的 结果 如 图 


spark@sparkTest: ~/tmp/spark-1.4.1 


Spark 
Spark 
Spark 
Spark 
Spark 
Spark 
Spark 
Spark 
Spark 
Spark 
Spark 
Spark 
Spark 
Spark 


Finished at: 


Final 


Project 
Project 
Project 
Project 
Project 
Project 
Project 
Project 
Project 
Project 
Project 
Project 
Project 
Project 
Project 
Project 


Assembly 

External Twitter . 
External Flume Sink 
External Flune ... 
External MQTT .... 
External ZeroMQ .. 
External Kafka ... 
Examples 

External Kafka Assem 


YARN Shuffle Service .. 


time: 17:22 min 


Memory: 


2015-08-907T11:30:25+08:00 


80M/271M 


如 果 读 者 希望 构建 


编译 整套 源码 耗 时 一 个 小 时 左右 ， 


图 2-25 编译 完结 果 图 


[91:60 min] 
[61:16 min] 
[ 4.274 s] 
[61:16 min] 
[ 16.444 s] 
[ 15.493 s] 
[61:15 min] 

.232 's] 


[61:31 min] 
[ 26.853 s] 
7.543 s] 


响 很 大 ， 所 耗费 


再 次 编译 源码 


2-25 所 示 。 


个 类 似 于 官方 所 提供 的 Spark 二 进 制 安装 包 ， 可 以 直接 使 用 make- 
distribution.sh 脚本 来 完成 这 个 任务 。 如 下 命令 是 一 
生成 一 份 适 配 Hadoop 2.4 和 Yar 的 Spark 版 本 ， 并 生成 targz 格式 的 压缩 包 。 更 为 具体 的 


个 示例， 该 脚本 会 自动 调用 


Maven 编译 并 


使 用 方法 读者 可 以 执行 命令 “./make-distribution.sh -help” 查 看 。 


$./make-distribution.sh --name custom-spark --tgz -Phadoop-2.4 -Pyarn 


2.3.2 ”使 用 IDEA 搭建 源码 编译 与 阅读 环境 


1. 预备 条 件 
Spark 的 源码 使 用 Scala 语言 编写 ，IDEA 本 身 并 不 能 编译 Scala 文件 ， 因 此 需要 为 其 安 


装 Scala 捐 


打开 


上 件 ， 安 装 方法 可 参见 第 2.2.2 节 中 的 部 分 内 容 。 
2. 导入 Spark 项 目 


IDEA， 荣 单 栏 依次 单 击 File 一 Open， 在 弹出 的 窗口 


中 选中 之 前 构建 好 的 Spark 源 
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但 目录 ， 如 网 2-26 所 示 ， 按 〈Enter) 键 。IDEA 会 自动 识别 出 该 项 目 为 Maven 项 目 ， 读 取 
并 解析 该 项 目 文 件 。 


图 2-26 导入 项 目 


项 目 读 取 完毕 之 后 ， 如 果 直 接 构 建 源码 ，IDEA 会 报 出 许多 错误 ， 如 图 2-27 所 示 。 


spark-parent_2.10- [=/tmp/spark-1.4,1] - [spark-streaming-flume-sink_2.10] - ~/tmp/spark-1.4.1/0xternal/flume-sink/src/maln/scala/org/opache/ 


图 2-27 导入 项 目 中 出 现 的 问题 


3. 构建 Spark 项 目 

需要 进行 一 些 额外 配置 。 菜 单 栏 依次 单 击 File 一 Project Structure 命令 ， 弹 出 窗口 的 侧 
边栏 中 依次 选择 Modules 一 spark-streaming-flume-sink.2.10 选项 ， 右 键 单 击 target 目录 ， 弹 出 
的 菜单 中 选中 Excluded 选项 以 取消 Excluded 标签 ， 如 图 2-28 所 示 。 
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Project Structure 


图 2-28 构建 项 


依次 展开 target 一 scala-2.10 一 src_managed 一 main 一 compiled_avro 有 目录 ， 右 键 单 
击 compiled_avro 目录 ， 在 弹出 的 菜单 中 选中 Sources 选项 ， 标 记 为 Sources 目录 。 


Project Structure 
Ww 
| 


home...external/flume-sink > 


Source Folders 


图 2-29 标记 为 Source 项 目 
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同样 ， 将 spark-hive2.10 模块 内 的 v0.13.1 一 src 一 main 一 scala 目录 标记 为 Sources 
目录 ， 如 图 2-30 所 示 。 


Project Structure 


图 2-30 标记 Source 项目 


依次 单 击 Build 一 rebuild 命令 ， 


之 后 等 待 构建 完毕 即 可 ， 结 果 如 图 2-31 所 示 。 


spark-parent_Z.10- [~/tmp/spark-1.4.1] - [spark-streaming-flume-sink_2.10] - ~ 此 mp/spark-1.4.1/external/flume-sink/src/maln/scala/org/apache/ 


. 
. 
LE 
. 
Sv 
LA 
. 
. 


图 2-31 


构建 项 


2.4 ”本 章 小 结 


本 章 从 Spark 的 i 


过 本 章 的 学 习 ， 初 次 接触 Spark 的 读者 应 该 能 够 了 解 天 


一 定 基 础 的 读者 则 能 


将 开始 讲解 Spark 应 | 


程序 的 开发 。 


F 发 一 个 Spark 程序 的 基本 流程 ， 


运行 、 开 发 以 及 编译 3 个 角度 ， 分 别 介绍 了 相应 环境 的 配置 与 设置 ， 通 


而 有 


R 随 教程 编译 Spark 的 源码 ， 或 者 搭建 源码 阅读 环境 。 在 后 面 的 章节 中 
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第 二 篇 开 发 篇 


在 了 解 Spark 平台 相关 基础 概念 后 ， 开 发 篇 将 就 Spark 核心 开发 、 四 大 应 
用 框架 和 系统 配置 调 优 3 个 方面 进行 介绍 。Spark 核心 开发 为 读者 介绍 了 基于 
Spark 平台 应 用 的 基本 开发 模型 和 接口 使 用 方法 。 四 大 应 用 框架 则 是 在 核心 开 
发 基础 之 上 针对 不 同业 务 场景 进行 的 划分 ， 使 读者 学 会 在 Spark 平台 上 使 用 
交互 式 查询 、 流 计算 、 机 器 学 习 库 和 图 计算 的 方法 。 在 对 开发 部 分 介绍 完 
后 ， 本 篇 将 进一步 介绍 影响 Spark 系统 性 能 的 常见 原因 及 相应 的 解决 办 法 。 
本 篇 目的 是 让 读者 深入 学 习 Spark 平台 的 开发 技能 ， 了 解 开 发 的 方法 论 ， 为 
下 一 篇 介绍 Spark 内 部 机 制 打 下 实践 基础 。 


第 3 章 Spark 核心 开发 


Spark 综合 了 分 布 式 数据 处 理 架 构 和 语言 的 优 缺 点 ， 使 用 简洁 、 一 致 的 函数 式 语言 Scala 
作为 主要 开发 语言 ， 同 时 为 了 方便 其 他 语言 背景 的 人 使 用 ， 还 支持 Java、Python 和 R 语 
言 。Spark 因为 其 弹性 分 布 式 数据 集 (RDD) 的 抽象 数据 结构 设计 ， 通 过 实现 抽象 类 
RDD 可 以 产生 面向 不 同 应 用 场景 的 子 类 。 本 章 将 先 介绍 Spark 编程 模型 、RDD 的 相关 
概念 、 常 用 API 源码 及 应 用 案例 ， 然 后 具体 介绍 四 大 应 用 框架 ， 为 后 续 进 一 步 地 学 习 
Spark 框架 打下 基础 。 


3.1 Spark 编程 模型 概述 


Spark 的 编程 模型 如 图 3-1 所 示 。 


Sprak 常 见 编程 模型 


Transfornation Action 


XW XX 
\y 


吐 醒 
SIGH 


图 3-1 Spark 编程 模型 


开发 人 员 在 编写 Spark 应 用 的 时 候 ， 需 要 提供 一 个 包含 main 函数 的 驱动 程序 作为 程序 
的 入 口 ， 开 发 人 员 根 据 自 己 的 需求 ， 在 main 函数 中 调用 Spark 提供 的 数据 操纵 接口 ， 利 用 
集群 对 数据 执行 并 行 操作 。 

Spark 为 开发 人 员 提 供 了 两 类 抽象 接口 。 第 一 类 抽象 接口 是 弹性 分 布 式 数据 集 RDD， 顾 
名 思 义 ，RDD 是 对 数据 集 的 抽象 封装 ， 开 发 人 员 可 以 通过 RDD 提供 的 开发 接口 来 访问 和 操 
纵 数据 集合 ， 而 无 须 了 解数 据 的 存储 介质 (内 存 或 磁盘 )、 文 件 系统 (本 地 文件 系统 、HDFS 
或 Tachyon )、 存 储 节 点 (本 地 或 远程 节点 ) 等 诸多 实现 细节 ; 第 二 类 抽象 是 共享 变量 
(Shared Variables )， 通 常情 况 下 ， 一 个 应 用 程序 在 运行 的 时 候 会 被 划分 成 分 布 在 不 同 执行 节 
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点 之 上 的 多 个 任务 ， 从 而 提高 运 外 
之 间 互 不 干扰 ， 然 而 在 某 些 情况 下 任务 之 间 需 要 相 


享 变量 ， 它 们 分 别 是 广播 变量 (Broadcast Variable 


介绍 RDD 的 基本 概念 和 RDD 提供 的 编程 接口 


深 对 RDD 的 理解 ， 此 外 在 第 3.4 节 


3.2 SparkContext 


SparkContext 是 整个 项 目 程 序 的 入 


HDFS 读 取 文件 或 者 通过 集合 并 行 


SparkContext 对 RDD 进行 创建 和 
创建 过 程 ， 然 后 通过 一 个 简单 的 例子 向 读者 介绍 SparkContext 的 应 月 


解 其 作用 。 


EE 


3.2.1 ”SparkContext 的 作用 


SparkContext 除了 是 Spark 的 主要 入 口 ， 也 可 以 看 作 是 对 月 


] SparkContext 来 创建 集群 中 的 RDD、 


化 获得 RDD， 者 9 
后 续 的 转换 操作 。 本 节 主 要 介 绢 


， 并 在 后 面 详 细 解读 接 


互 共享 变量 ，Apache Spark 提供 
) 和 累加 器 〈Accumulators)。 第 3.3 节 会 


t 了 两 类 


的 速度 ， 每 个 任务 都 会 有 一 份 独立 的 程序 变量 拷贝 ， 彼 此 


~ 


的 源码 实现 ， 从 而 加 


将 介绍 两 类 共享 变量 的 使 用 方法 。 


SparkContext 类 的 作 月 


， 无 论 从 本 地 读 取 文件 (textfile 方法 ) 还 是 从 


E 要 创建 SparkContext 对 象 ， 然 后 使 用 


昌 和 


方法， 从 应 用 角度 来 理 


日 户 的 接口 ， 它 代表 与 Spark 


集群 连接 的 对 象 ， 由 图 3-2 可 以 看 到 ，SparkContext 主要 存在 于 Driver Program 中 。 可 以 使 


累积 量 和 广播 量 ， 在 后 台 SparkContext 还 能 发 送 任 


务 给 集群 管理 器 。 每 一 个 JVM 只 能 运行 一 个 程序 ， 即 对 应 的 只 有 一 个 SparkContext 处 于 激 
日 的 SparkContext 停止 。 


Driver Program 


SparkContext 


3.2.2 ”SparkContext 的 创建 


SparkContext 的 创建 过 程 首先 要 加 3 
体 过 程 和 源码 分 析 如 下 。 
1. 加 载 配置 文件 SparkConf 

SparkConf 在 初始 化 时 ， 需 2 


DAGScheduler， 


大 A /2 
sparkHome、jars、environment 等 信 


下 。 这 里 的 构造 函数 有 多 利 


始 下 一 步 操作 。 
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活 状态 ， 因 此 在 创建 新 的 SparkContext 前 需要 把 | 


Cluster Manager 


所 


~ 


Worker Node 


Executor 


Worker Node 


Executor 


图 3-2 ”SparkContext 在 Spark 架构 图 中 的 位 置 


选择 相关 的 配置 参数 ， 包 
息 ， 然 后 通过 构造 方法 传递 给 SparkContext， 实 现代 码 如 
县 后 


全 


master 、 appName 、 


线 配 置 文件 ， 然 后 创建 SparkEnv、TaskScheduler 和 


表达 形式 ， 当 SparkContex 获取 了 全 部 相关 的 本 地 配置 信 


于 


def this(master: String, appName: String, conf: SparkConf) = 
this(SparkContext.updatedConf(conf, master, appName)) 
def this( 
master: String, 
appName: String, 
sparkHome: String = null, 
jars: Seq[String] = Nil, 
environment: Map[String, String] = MapO), 
preferredNodeLocationData: Map[String, Set[SplitInfo]] = MapO) = 
{ 
this(SparkContext.updatedConf(newSparkConf(),master,appName,sparkHome,jars,environment)) 
this.preferredNodeLocationData = preferredNodeLocationData 


} 
2. 创建 SparkEnv 
创建 SparkConf 后 就 需要 创建 SparkEnv， 这 里 面包 括 了 很 多 Spark 执行 时 的 重要 组 件 ， 
包括 MapOutputTracker、ShuffleFetcher、BlockManager 等 ， 在 这 里 源码 是 通过 SparkEnv 类 
伴生 对 象 SparkEnv Object 内 的 createDriverEny 方法 实现 的 ， 实 现代 码 如 下 。 


private[ spark] def createDriverEnv( 

conf: SparkConf, 

isLocal: Boolean, 

listenerBus: LiveListenerBus, 

mockOutputCommitCoordinator: Option[OutputCommitCoordinator] = None): SparkEnv = { 
assert(conf.contains("spark.driver.host"), "spark.driver.host is not set on the driver!") 
assert(conf.contains("spark.driver.port"), "spark.driver.port is not set on the driver!") 
val hostname = conf.get("spark.driver.host") 
val port = conf.get("spark.driver.port" ).toInt 
create( 

conf, 

SparkContext.DRIVER_IDENTIFIER, 

hostname, 

port, 

isDriver = true, 

isLocal = isLocal, 

listenerBus = listenerBus, 


mockOutputCommitCoordinator = mockOutputCommitCoordinator 


} 
3. 创建 TaskScheduler 
创建 SparkEnv 后 ， 就 需要 创建 SparkContext 中 调度 执行 方面 的 变量 TaskScheduler， 实 
现代 码 如 下 。 


private[spark] var (SchedulerBackend, taskScheduler) = 
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SparkContext.createTaskScheduler(this, master) 
private val heartbeatReceiver = env.actorSystem.actorOf( 
Props(new HeartbeatReceiver(taskScheduler)), "HeartbeatReceiver") 
@volatile private[Spark] var dagScheduler: DAGScheduler = _ 
try { 
dagScheduler = new DAGScheduler(this) 
} catch { 
case e: Exception => { 
ty { 
stop0 
} finally { 
throw new SparkException("Error while constructing DAGScheduler", e) 


} 

// start TaskScheduler after taskScheduler sets DAGScheduler reference in DAGScheduler's 
// constructor 

taskScheduler.start() 


TaskScheduler 是 依据 Spark 的 执行 模式 进行 初始 化 的 ， 详 细 代 码 在 SparkContext 中 的 
createTaskScheduler 方法 中 。 在 这 里 以 Standalone 模式 为 例 ， 它 会 将 sc 传递 给 
TaskSchedulerImpl， 然 后 创建 SparkDeploySchedulerBackend 并 初始 化 ， 最 后 返回 Scheduler 
对 象 ， 实 现代 码 如 下 。 


case SPARK_REGEX(sparkUrTrD) => 
val Scheduler = new TaskSchedulerImpl(sc) 
val masterUrls = sparkUrl.split(",").map("spark://" + _) 
val backend = new SparkDeploySchedulerBackend(scheduler, sc, masterUrls) 
Scheduler.initialize(backend) 


(backend, scheduler) 


4. 创建 DAGScheduler 
创建 TaskScheduler 对 象 后 ， 再 将 TaskScheduler 对 象 传 至 DAGScheduler， 用 来 创建 
DAGScheduler 对 象 ， 实 现代 码 如 下 。 


@volatile private[spark] var dagScheduler: DAGScheduler = _ 
try { 
dagScheduler = new DAGScheduler(this) 
} catch { 
case e: Exception => { 
try { 
stop0 
} finally { 
throw new SparkException("Error while constructing DAGScheduler", e) 
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} 
} 


def this(sc: SparkContexb = this(sc, sc.taskScheduler) 


创建 DAGScheduler 后 再 调用 其 start0 方 法 将 


3.2.3 使 用 Shell 


除了 单独 编写 一 个 应 用 程序 的 方式 之 外 ，Spark 还 提供 了 一 个 交互 式 Shell 来 使 用 。 在 


其 启动 。 以 上 4 点 是 整个 SparkContext 的 
创建 过 程 ， 这 其 中 包含 了 很 多 重要 的 步骤 ， 从 这 个 过 程 中 能 浊 


十 


公 Spark 的 初始 启动 情况 。 


Shell 中 ， 用 户 的 每 条 语句 都 能 在 输入 完毕 后 及 时 得 


到 结果 ， 而 无 须 手 动 编译 和 运行 程序 。 


Shell 的 使 用 十 分 简单 ， 改 变 当 前 工作 路 径 到 Spark 的 安装 目录 ， 执 行 命令 “./bin/spark- 


shell” 即 可 进入 Shell。 


在 Shell 中 ， 系 统 根 据 命令 提供 的 参数 自动 配置 和 生成 了 一 个 SparkContext 对 象 sc， 直 
接 使 用 即 可 ， 无 须 再 手动 实例 化 SparkContext。 除 了 结果 会 实时 显示 之 外 ， 其 余 操作 与 编写 


单独 应 用 程序 类 似 。 读 者 可 直接 参考 Spark 官方 提供 的 Spark Programming Guide 等 文档 ， 在 


此 不 做 具体 介绍 。 
3.2.4 ”应 用 实践 


这 里 向 读者 介绍 一 个 用 于 统计 文件 中 字母 a 和 字母 b 出 现 频率 的 Spark 程序 ， 通 过 这 个 


程序 向 读者 展示 SparkContext 的 用 法 。 
【 例 3-1】 简单 的 Spark 程序 


/* SimpleApp.scala */ 
import org.apache.spark.SparkContext 
import org.apache.spark.SparkContext._ 
import org.apache.spark.SparkConf 
object SimpleApp { 

def main(args: Array[String]) { 


val logFile = "YOUR._SPARK_HOME/README.md" / 本 地 文件 目录 
val conf = new SparkConf().setAppName("Simple Application ) /给 Application 命名 


val sc = new SparkContext(conf) 


// 创 建 SparkContext 


val logData = sc.textFile(logFile, 2).cache() /缓存 文件 
val numAs = logData.filter(line => line.contains("a")).count() /计算 字母 a 的 个 数 
val numBs = logData.filter(line => line.contains("b")).countO /计算 字母 b 的 个 数 


println("Lines with a: %s, Lines with b: %s".format(numAs, numBs)) /打印 结果 


} 
} 


这 个 例子 中 ， 首 先 创建 本 地 文件 目录 logFile 和 配置 文件 conf， 然 后 使 用 配置 信息 conf 
实例 化 SparkContext 得 到 se， 得 到 sc 之 后 就 可 以 从 本 地 文件 中 读 取 数据 并 把 数据 转化 
成 RDD， 并 命名 为 logData， 然 后 logData 调用 filter 方法 分 别 计算 包含 字母 a 的 行 数 和 


包含 字母 b 的 行 数 ， 最 后 打印 出 结果 。 该 例子 


5 


使 


了 SparkContext 的 实例 化 对 象 来 创 
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建 RDD 数据 信 
3.3 RDD 


本 节 了 


Mt 
O 


区 
简介 


要 介绍 弹性 


要 的 Trans 


抽象 的 深入 到 


品 


过 程 。 


formation 和 


分 布 式 数据 集 RDD 的 相关 概念 ， 其 中 包括 RDD 创建 来 源 、 两 种 重 
Action 操作 、 数 据 持久 化 和 检查 点 机 制 ， 通 过 对 Spark 中 RDD 核心 


| 


E 解 ， 帮 助 


Ti 


3.3.1 RDD 创建 


RDD 


读者 全 面 理解 后 面 的 RDD 的 分 区 、 并 行 计 算 和 依赖 等 机 制 以 及 变换 


是 Spark 应 | 


程序 开发 过 程 中 最 为 基本 也 最 为 重要 的 一 类 数据 结构 ，RDD 被 定义 


为 只 读 、 分 区 化 的 记录 集合 ， 更 为 通俗 来 i 


，RDD 是 对 原始 数据 的 进一步 封装 ， 封 装 导 


全 


两 个 结果 : 


是 数据 操作 功能 被 强化 ， 使 得 数据 能 够 实现 分 布 式 存储 、 并 发 处 理 、 
Spark 的 整 


个 结果 


A 
2 


个 计 和 


进行 简单 介绍 。 


1. RDD 的 两 类 来 源 


1) 将 未 被 封装 的 原始 数据 进行 封装 操作 
成 由 集合 并 行 化 获得 或 从 外 部 数据 集中 获得 。 


步 分 


过 程 者 


判 ， 数 据 只 能 被 读 ， 而 无 法 被 修改 ;第 二 个 结果 
自动 容错 等 诸多 功能 。 
各 会 对 RDD 的 创建 以 及 数据 结构 


是 数据 访问 权限 被 限 


是 围绕 数据 集 RDD 来 进行 ， 下 面 ; 


4 旦 
导 


到 ， 根 据 原始 数据 的 存在 形式 ， 又 可 被 进 


2) 由 其 他 RDD 通过 转换 操作 获得 ， 由 于 RDD 的 只 读 特 性 ， 内 部 的 数据 无 法 被 修改 ， 
因此 RDD 内 部 提供 了 一 系列 数据 转换 (Transformation ) 操作 接口 ， 这 类 接口 可 返回 新 的 
RDD， 而 不 影响 原来 的 RDD 内 容 。 在 后 面 第 3 章 的 3.3 节 中 将 会 对 RDD 的 创建 方法 进行 
更 加 详尽 的 说 明 。 

2. RDD 内 部 数据 结构 

1) 分 区 信息 的 列表 

2) 对 父 RDD 的 依赖 信息 

3) 对 Key-Value 键 值 对 数据 类 型 的 分 区 器 (可 选 ) 

4) 计算 分 区 的 函数 

5) 每 个 数据 分 区 的 物理 地 址 列表 (可 选 ) 

RDD 的 数据 操作 并 非 在 调用 内 部 接口 的 一 刻 便 开始 计算 ， 而 是 遇 到 要 求 将 数据 返回 给 
驱动 程序 ， 或 者 写 入 到 文件 的 接口 时 ， 才 会 进行 真正 的 计算 ， 这 类 会 触发 计算 的 操作 称 为 动 
作 〈Action) 操作， 而 这 种 延 时 计算 的 特性 ， 被 称 为 RDD 计算 的 惰性 〈Lazy)， 在 第 六 章 机 
篇 将 分 别 讲述 动作 操作 和 惰性 特征 。 

在 第 1 章 中 说 过 ，Spark 是 一 套 内 存 计 算 框 架 ， 其 能 够 将 频繁 使 用 的 中 间 数 据 存储 在 内 
存 当 中 ， 数 据 被 使 用 的 频率 越 高 ， 性 能 提升 越 明 显 。 数 据 的 内 存 化 操作 在 RDD 层次 上 ， 体 
现 为 RDD 的 持久 化 操作 ， 会 在 3.3.5 节 描 述 RDD 的 持久 化 操作 。 除 此 之 外 ，RDD 还 提供 了 


类 似 于 持久 化 操作 的 检查 点 机 
上 又 有 诸多 不 同 ， 会 丰 
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央 ， 表 面 看 上 去 与 存储 在 HDFS 的 持久 化 操作 类 似 ， 实 际 使 用 
述 RDD 的 检查 点 机 制 。 


3.3.6 小 节 


3.3.2 ”RDD 转换 操作 
转换 (Transformation〉 操作 是 EF 


一 个 新 的 RDD。 


RDD 内 部 可 以 封装 任意 类 型 的 数据 ， 但 菜 些 操作 只 能 应 


一 个 RDD 转换 到 另 一 个 新 的 RDD， 例 如 ，map 操作 在 
RDD 中 是 一 个 转换 操作 ，map 转换 操作 会 让 RDD 中 的 每 一 个 数据 都 通过 


RDD 之 上 ， 例 如 转换 操作 reduceByKey、groupByKey 和 countByKey 等 。 


表 3-1 


展示 了 RDD 所 提供 的 所 有 转换 操 


作 及 其 会 义 。 


表 3-1 RDD 提供 的 转换 操作 


个 指定 函数 得 到 


] 在 封装 键 值 对 类 型 数据 的 


Transformation 和 9 子 作 
map(func) 新 RDD 中 的 数据 由 原 RDD 中 的 每 个 数据 通过 函数 func 得 型 
新 RDD 中 的 数据 由 原 RDD 中 每 个 能 使 函数 func 返回 true 值 的 数 
filter(func) 
据 组 成 
类 似 于 map 转换 ， 但 func 的 返回 值 是 一 个 Seq 对 象 ，Segq 中 的 元 
关 似 于 
MAD 素 个 数 可 以 是 0 或 者 多 个 
类 似 于 map 变换 ， 但 func 的 输入 不 是 一 个 数据 项 ， 而 是 一 个 分 
ImapPartitions(func) 区 ， 若 RDD 内 数据 类 型 为 T， 则 func 必须 是 Iterator<T> => 
Iterator<U> 类 型 
. 类 似 于 mapPartitions 转换 ， 但 func 的 数据 还 多 了 一 个 分 区 索引 ， 
入 I 人 J 3 
pe ratons wi nde tie) 即 func 类 型 是 (Int, Iterator<T> => Iterator<U>) 


sample(withReplacement, fraction, seed) 


对 fraction 中 的 数据 进行 采样 ， 可 以 
供 一 个 随机 数 种 子 


选择 是 天 要 进行 符 换 ， 需 要 


union(otherDataset) 


新 RDD 中 数据 是 原 RDD 与 RDD otherDataset 中 数据 的 并 集 


Intersection(otherDataset) 


distinct([numTasks]) 


新 RDD 中 数据 


原 RDD 与 RDD otherDataset 中 数据 的 交集 


groupByKey([numTasks]) 


是 
新 RDD 中 数据 是 原 RDD 中 数据 去 重 的 结果 
数据 


新 RDD 中 数据 类 型 为 (K, 


原 RDD 中 数据 类 型 为 区 ，V)， 
Iterator(V))， 即 将 相同 K 的 所 有 V 放 至 


1 一个 迭代 器 中 


reduceByKey(func, [numTasks]) 


有 V 依次 经 过 函数 funce， 得 到 的 最 终 值 作为 K 的 V 


原 RDD 和 新 RDD 数据 的 类 型 都 为 (K, V)， 让 原 RDD 相同 K 的 所 


原 RDD 数据 的 类 型 为 (K, V)， 新 RDD 数据 


的 类 型 为 (K, U)， 纪 


类 似 


aggregateByKey(zeroValue)(seqOp, combOp, InumTasks]) | 于 groupbyKey 函数 ， 但 聚合 函数 由 用 户 指定 。 键 值 对 的 值 的 类 型 可 
以 与 原 RDD 不 后 
i 原 RDD 和 新 RDD 数据 的 类 型 为 (K WW， 新 RDD 的 数据 根据 
sortByKey([ascending], [numTasks]) ne ee 为 ( )， 新 的 数据 根据 
数据 的 类 型 关 et 攻 近 的 尖 列 区 
join(otherDataset [numTasks]) 对 oe 站 数据 的 类 型 为 (K, W)， 
as asks 原 RDD 数据 的 类 型 为 (K，V)，otherDataset 数据 的 类 型 为 (K,W)， 
RN 对 于 相同 的 K， 返 回 所 有 的 (K, Iterator<V>, Iterator<Wy>) 
catesian(otherDataset) 原 RDD 数据 的 类 型 为 为 T，otherDataset 数据 的 类 型 为 U， 返 回 所 
有 的 (TL, U) 
ipe(command, [envValue]) 原 RDD 中 的 每 个 数据 以 管道 的 方式 依次 通过 命令 command， 返 后 
得 到 的 标准 输出 
coalescenumPartitions) 减少 原 RDD 中 分 区 的 数目 至 指定 值 numpartitions 
repartition(numPartitions) 修改 原 RDD 中 分 区 的 数目 至 指定 值 numPartitions 
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3.3.3 ”RDD 动作 操作 

相对 于 转换 ， 动 作 (Action〉 操作 用 于 向 驱动 (Driver) 程序 返回 值 或 者 将 值 写 入 到 文 
件 当 中 。 例 如 reduce 动作 会 使 用 同一 个 指定 函数 让 RDD 中 的 所 有 数据 做 一 次 聚合 ， 把 运算 
的 结果 返回 。 表 3-2 展示 了 RDD 所 提供 的 所 有 动作 操作 及 其 含义 。 


表 3-2 RDD 提供 的 动作 操作 


Action 算 子 作 
原 RDD 中 的 每 个 值 依次 经 过 函数 func，func 的 类 型 为 人 T) => T， 返 回 最 终 
reduce(func) 寻 
结果 
collectO 将 原 RDD 中 的 数据 打包 成 数组 并 返 匠 
count() 返回 原 RDD 中 数据 的 个 数 
firstO 返回 原 RDD 中 的 第 一 个 数据 项 
take(n) 返回 原 RDD 中 前 n 个 数据 项 ， 返 回 结果 为 数组 
takeSample(withReplacement, num, [seed]) 对 原 RDD 中 的 数据 进行 采样 ， 返 回 num 个 数据 项 
saveAsTextFile(path) 将 原 RDD 中 的 数据 写 入 到 文本 文件 当中 
saveAsSequenceFile(path)(Java and Scala) 将 原 RDD 中 的 数据 写 入 到 序列 文件 当中 
savaAsObjectFile(path)(Java and Scala) 将 原 RDD 中 的 数据 序列 化 并 写 入 到 文件 当中 。 可 以 通过 SparkContext 
objectFile0 方 法 加 载 
countByKeyO 原 RDD 数据 的 类 型 为 (K, V)， 返 回 hashMap(K, Int)， 用 于 统计 K 出 现 的 次 数 
foreach(func) 对 于 原 RDD 中 的 每 个 数据 执行 函数 func， 返 回 数组 


3.3.4 RDD 惰性 计算 


需要 注意 的 是 ， 一 个 RDD 执行 转换 操作 之 后 ， 数 据 的 计算 是 延迟 的 ， 新 生成 的 RDD 
会 记录 转换 的 相关 信息 ， 包 括 父 RDD 的 编号 、 用 户 指 定 函 数 等 ， 但 并 不 会 立即 执行 计算 操 
作 ， 真 正 的 计算 操作 过 程 需 等 到 一 个 动作 操作 (Action) 才 会 执行 。 此 外 ， 除 非 用 户 指定 持 
久 化 操作 ， 否 则 转换 过 程 中 产生 的 中 间 数 据 在 计算 完毕 后 会 被 丢弃 ， 即 数据 是 非 持 久 化 的 。 
即使 对 同一 个 RDD 执行 相同 的 转换 操作 ， 数 据 同样 会 被 重新 计算 。 

Spark 采取 惰性 计算 机 制 有 其 道理 所 在 。 例 如 可 以 通过 map 方法 创建 的 一 个 新 数据 人 
然后 使 用 reduce 方法 ， 最 终 只 返回 reduce 的 结果 给 driver， 而 不 是 整个 新 的 数据 集 。 


3.3.5 RDD 持久 化 


惰性 计算 的 缺陷 也 是 明显 的 ， 中 间 数 据 默认 不 会 被 保存 ， 每 次 的 动作 操作 都 会 对 数据 
重复 计算 ， 某 些 计算 量 比较 大 的 操作 可 能 会 影响 到 系统 的 运算 效率 ， 因 此 Spark 允许 在 转 
换 过 程 中 手动 将 某 些 会 被 频繁 使 用 的 RDD 执行 持久 化 操作 ， 持 久 化 后 的 数据 可 以 被 存储 
在 内 存 、 磁 盘 或 者 Tachyon 当中 ， 这 将 使 得 后 续 的 动作 〈Actions) 变 得 更 加 迅速 〈 通 常 快 
10 倍 以 上 )。 

通过 调用 RDD 提供 的 cache 或 persist 函数 即 可 实现 数据 的 持久 化 ，persist 函数 需要 指 


a 


pa 
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定 存储 级 别 〈StorageLevel)，cache 等 价 于 采用 默认 存储 级 别 的 persist 函数 ，Spark 提供 的 存 
储 级 别 及 其 含义 如 表 3-3 所 示 。 在 6.6 节 会 继续 讨论 RDD 持久 化 过 程 在 源码 上 的 实现 
细节 。 


表 3-3 RDD 的 存储 级 别 


存储 级 别 含义 
人 把 RDD 以 非 列 化 其 态 存储 在 内 存 中 ， 如 采风 存 宝 问 不 够 ， 则 有 坚 分 区 数据 会 在 需要 的 
时 候 进行 计算 得 到 

MEMORY_AND_DISK 把 RDD 以 非 序列 化 存储 在 内 存 中 ， 如 果 内 存 空间 不 够 ， 则 存储 在 硬盘 中 

把 RDD 以 java 对 得 序 列 化 依存 在 内 存 中 ， 序 列 化 后 让 用 空间 更 小 ， 无 其 妆 使 用 快速 序 询 
MEMORY ON ER 化 库 (如 Kyro9)》 时 效果 更 好 。 缺 点 是 读数 据 要 反 序列 化 ， 会 消耗 CPU 计 算 资源 

类 似 MEMORY_ONLY_SER， 区 别 是 当 内 存 不 够 的 时 候 会 把 RDD 持久 化 到 磁盘 中 ， 而 
MORY ND DDR STR | 不 是 在 需要 它们 的 时 候 实时 计算 


DISK_ONLY 只 把 RDD 存储 到 磁盘 中 
MEMORY_ONLY 2 类 似 MEMORY_ONLY， 不 同 的 是 会 复制 一 个 副本 到 另 一 个 集群 节点 
MEMORY_AND DISK_2 类 似 MEMORY_AND_DISK， 不 同 的 是 会 复制 一 个 副本 到 另 一 个 集群 节点 
把 RDD 以 序列 化 形式 存储 在 Tachyon 中 ,与 MEMORY_ONLY_SER 不 同 的 是 ， 使 
OFF_HEAP OFF-HEAP 模式 会 减少 垃圾 回收 的 开销 ， 此 外 还 能 让 执行 器 共享 内 存 ， 这 种 模式 更 适合 于 


多 并 发 和 对 内 存 要 求 高 的 环境 


3.3.6 ”RDD 检查 点 


DAG 中 血统 (Lineage〉 如 果 太 长 ， 重 计算 的 时 候 开销 会 很 大 ， 故 使 用 检查 点 机 制 ， 将 
计算 过 程 持久 化 到 磁盘 ， 这 样 如 果 出 现 计 算 故 障 就 可 以 在 检查 点 开始 重 计算 ， 而 不 需要 从 头 
开始 。RDD 的 检查 点 〈checkpoint ) 机 制 类 似 持久 化 机 制 中 的 persist(StorageLevel. 
DISK_ONLY)， 数 据 会 被 存储 在 磁盘 当中 ， 两 者 最 大 的 区 别 在 于 : 持久 化 机 制 所 存储 的 数 
据 ， 在 驱动 程序 运行 结束 之 后 会 被 自动 清除 ， 检查 点 机 制 则 会 将 数据 永久 存储 在 磁盘 当下 
如 果 不 手动 删除 ， 数 据 会 一 直 存 在 。 换 句 话 说， 检查 点 机 制 存 储 的 数据 能 够 被 下 一 次 运行 的 
应 用 程序 所 使 用 。 

检查 点 的 使 用 与 持久 化 类 似 ， 调 用 RDD 的 checkpoint 方法 即 可 。 在 6.7 小 节 中 继续 介 
绍 检查 点 机 制 的 实现 以 及 其 与 持久 化 过 程 的 区 别 。 


| 四 


局 


为 为 在 任务 之 间 读 写 共 享 变量 的 效率 很 低 ，Spark 提供 两 种 类 型 的 共享 变量 类 型 ， 即 
Broadcast Variables 和 Accumulators 。 
3.4.1 广播 变量 


广播 变量 (Broadcast Variables) 允许 用 户 将 一 个 只 读 变 量 缓存 到 每 一 台 机 器 之 上 ， 
而 不 像 传 统 变量 一 样 ， 复 制 到 每 一 个 任务 当中 ， 同 一 台 机 器 上 的 不 同 任务 可 以 共享 该 变 


加 Kyro 是 Qudcomm Technologies 推出 的 首 款 面向 异物 计算 而 设计 的 高 度 伏 化 定制 64 位 CPU。 
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【 例 3-2 】 


量 值 。 如 【 例 3-2】 代 码 所 示 ， 对 于 变量 v， 只 需要 调用 SparkContext.broadcast(v) 即 可 得 到 变 
量 v 的 广播 变量 broadcastVar， 通 过 调用 broadcastVar 的 value 方法 即 可 取得 变量 值 。 


广播 变量 的 用 法 示例 。 


scala> val broadcastVar = sc.broadcast(Array(1, 2, 3)) 
broadcastVar:spark.Broadcast[Array[Int]] = spark.Broadcast(b5c40191-a864-4c7d-b9bf-d87ela4e787c) 


scala> broadcastVar.value 
res0: Array[Int] = Array(1, 2, 3) 


3.4.2 ”累加 器 


累加 器 (Accumulators〉 是 男 外 一 种 共享 变量 。 累 加 器 变量 只 能 执行 加 法 操作 ， 但 其 支 
持 并 行 操作 ， 这 意味 着 不 同 任务 多 次 对 累加 器 执行 加 法 操作 后 ， 加 法 器 最 后 的 值 等 于 所 有 累 


加 的 和 。 累 加 器 的 值 只 能 被 驱动 程序 访问 ， 集 群 中 的 任务 无 法 访问 该 值 。 


【 例 3-3】 累加 器 的 用 法 示例 。 


pA 


scala> val accum = sc.accumulator(0, "My Accumulator") 
scala> accum.value () /1/ 读 取 原始 变量 值 

accum: spark.Accumulator[Int] = 0 

scala> sc.parallelize(Array(1, 2, 3, 4)).foreach(x => accum += X) 
res2:Int = 10 


| 3.5 $park 核心 开发 实践 


本 节 主 要 介绍 核心 开发 中 RDD 的 两 个 主要 操作 算 子 Transformation 和 Action 的 使 用 方 
法 ， 由 于 Spark 是 基于 延迟 计算 ，Transforamation 算 子 并 不 立即 执行 ， 只 是 保存 计算 状态 ， 
现 才 真正 执行 计算 。 为 此 下 面 就 这 两 个 算 子 分 别 学 习 主要 的 API 方法 和 应 
实例 ， 如 果 想 了 解 更 多 关于 RDD 的 API 操作 ， 建 议 读者 参考 拉 筹 伯 大 学 教授 的 个 人 主页 


当 Action 算 子 日 


Ne 


http://homepage.cs.latrobe.edu.au/zhe/。 
3.5.1 ” 单 值 型 Trasnformation 算 子 


子 就 是 输入 为 单个 值 形式 ， 这 里 主要 介绍 map、flatMap、mapPartitions、 


单 值 型 的 


union、cartesian、groupBy、filter、distinct、subtract、foreach、cache、persist、sample 以 及 


takeSample 方法 ， 如 表 3-4 中 列 出 了 各 个 方法 的 简要 概述 。 


表 3-4 单 值 型 Transformation 算 子 


方 法 名 方法 定义 
map def map[U](f: (T) SS U)Gmplicit arg0: ClassTag[U]): RDDIU] 
flatMap def mapPartitions[U](f: (Iterator[T]) = Iterator[U], preservesPartitioning: Boolean = false) 
mapPartition def mapPartitions[U](f: (Iterator[T]) 之 Tterator[U], preservesPartitioning: Boolean = false)(implicit arg0: 


ClassTag[U]): RDD[U] 
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( 续 ) 


方 法 名 方法 定义 
mapPartitions With def mapPartitionsWithIndex[U](f: (Int, Iterator[T]) 之 Iterator[U], preservesPartitioning: Boolean = 
Index false)(implicit arg0: ClassTag[U]): RDDI[U] 
foreach def foreach(f: (T) SS Unit): Unit 
foreachPartition def foreachPartition(f: (Iterator[T]) SS Unit): Unit 
glom def glom0: RDD[Array[T]] 
union def union(other: RDDI[T]): RDDIT] 
cartesian def cartesian[U](other: RDD[U])Gmplicit arg0: ClassTag[U]): RDDI(T, U)] 
rounB def groupBy[K](f: (T) SS K, p: Partitioner)(implicit kt: ClassTag[K], ord: Ordering[K] = null): RDDI(K, 
STOUP?Y Iterable[T])] 
filter def filter(f: (T) Boolean): RDDIT] 
distinct def distinct0: RDDI[T] 
Subtract def subtract(other: RDDI[T], p: Partitioner)(implicit ord: Ordering[T] = nulD: RDDIT] 
cache def cache(): RDD .this.type 
persist def persist(): RDD .this.type 
sample def sample(withReplacement: Boolean, fraction: Double, seed: Long = Utils.random.nextLong): RDDIT] 
takeSample def takeSample(withReplacement: Boolean, num: Int, seed: Long = Utils.random.nextLong): Array[T] 


1. map 
对 原来 每 一 个 输入 的 RDD 数据 集 进行 函数 转换 ， 返 回 的 结果 为 新 的 RDD， 该 方法 对 分 
区 操作 是 一 对 一 的 。 方 法 源码 实现 如 下 。 


def map[U: ClassTag](f: T => U): RDD[U] = new MappedRDD(this, sc.clean(f)) 


【 例 3-4】 map 方法 应 用 样 例 。 


val a= sc.parallelize(List("bit", "lince", "xwce", "fjg", "we","spark"), 3) // 创 建 RDD 


valb = a.map(word => word.length) 1/ 计 算 每 个 单词 的 长 度 
wp) 1 拉链 方法 ， 把 两 列 数据 对 应 配对 成 键 值 对 格式 
eont // 把 结果 转换 为 数组 


res0: Array[(String, Int)] = Array((bit,3), (linc,4), (xwc,3), (fjg,3), (we,2),(spark,5)) 

这 个 例子 中 map 方法 从 a 中 依次 读 入 一 个 单词 ， 然 后 计算 单词 长 度 ， 把 最 后 计算 的 长 度 
赋 给 b， 然 后 因为 a 和 bb 的 长 度 相 同 ， 使 用 zip 方法 将 a、b 中 对 应 元 素 组 成 K-V 键 值 对 形 
式 ， 最 后 使 用 Action 算 子 中 的 collect 方法 把 键 值 对 以 数组 形式 输出 ， 如 图 3-3 所 示 。 


[图 3-3 中 的 map 方法 在 1.4 版 后 输出 的 是 MapPartitionsRDD， 而 不 再 有 MappedRDD 类 ， 但 为 了 照顾 


不 同 读者 ， 这 里 还 是 使 用 老 版 本 的 写法 。 下 文 的 flatMap Values 方法 输出 结果 在 老 版 本 中 为 Flat Map 
ValuesRDD 类 ， 也 在 1.4 版 后 改 为 MapPartitionsRDD. 
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RDD 


RDD MappedRDD 


ppedPartitionsRDD 


(bit,3) 
(linc,4) 


map 


两 


3-3 map 方法 应 用 样 例 


2. flatMap 
flapMap 方法 与 map 方法 类 似 ， 但 是 允许 在 一 次 map 方法 中 输出 多 个 对 象 ， 而 不 是 map 
中 的 一 个 对 象 经 过 函数 转换 生成 另 一 个 对 象 。 方 法 源码 实现 如 下 。 


defflatMap[U: ClassTag](f: T => TraversableOnce[U]): RDD[U] =new FlatMappedRDD(this, sc.clean(f)) 


【 例 3-5】 flatMap 方法 应 用 样 例 。 


val a = sc.parallelize(l to 10, 5) // 生 成 从 1 到 10 的 序列 ，5 个 分 区 

a.flatMap(num => 1 to num).collect // 方 法 的 作用 是 把 每 一 个 num 映射 到 从 1 到 num 的 序列 

res47: Array[Int] = Array(1, 1, 2, 1, 2, 3, 1, 2, 3, 4, 1, 2, 3, 4, 5, 1, 2, 3, 4, 5, 6, 1, 2, 3, 4, 5, 6, 7, 1, 2, 3, 4, 
5, 6, 7, 8, 1, 2, 3, 4, 5, 6, 7, 8, 9, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10) 


这 个 例子 先 得 到 从 1 到 10 的 序列 ， 然 后 调用 flatMap 方法 对 输入 的 num 依次 生成 从 1 
到 num 的 序列 ， 最 后 使 用 collect 方法 转换 成 数组 输出 。 

3. mapPartitions 

mapPartitions 是 map 的 另 一 个 实现 。map 的 输入 函数 应 用 于 RDD 中 每 个 元 素 ， 而 
mapPartitions 的 输入 函数 作用 于 每 个 分 区 ， 也 就 是 把 每 个 分 区 中 的 内 容 作为 整体 来 处 
理 。 方 法 源码 实现 如 下 。 


def mapPartitions[U: ClassTagl](f: Iterator[T] => Iterator[U], preservesPartitioning: Boolean = false): 
RDDIU] ={ 
val func = (context: TaskContext index: Int iter: Iterator[T]) => ffiter) 
new MapPartitionsRDD(this, sc.clean(func), preservesPartitioning) 


} 
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【 例 3-6】 mapPartitions 方法 应 用 样 例 。 


scala> val a = sc.parallelize(1 to 9, 3) 
scala> def myfunc[T]Gter: Iterator[T]) : Iterator[(T, T)] = { 
var res = List[(T, T)]O 
Var pre = iter.next 
while (iter.hasNext) { 
val cur = iter.next 
res .::= (pre, cur) 
pre = cur 
} 
res.iterator 
} 
scala> a.mapPartitions(myfunc).collect 
res3: Array[(Int, Int)] = Array((2,3), (1,2), (5,6), (4,5), (8,9), (7,8)) 


如 图 


别 是 (1,2,3)，(4,5,6) 和 “(7,8,9)， 然 后 调用 mapPartitions 方法 ， 
函数 能 作为 参数 值 ， 所 以 mapPartition 方法 输入 参数 是 myfunc 函 
输入 单元 素 集合 iter， 输 出 双 元 素 Tuple 


先 构 造 一 个 空 list 集合 ， 


华人 和 全 


改口 y 


3-4， 这 个 例子 是 先 得 到 从 1 到 9 的 序列 ， 因 为 有 3 个 分 区 ， 所 以 每 个 分 区 数据 分 
因为 Scala 是 函数 式 编程 ， 
数 。myfunc 函数 的 作用 是 


分 区 中 一 个 元 素 和 


它 的 下 一 个 元 素 组 成 一 个 Tuple。 因 为 每 个 分 区 中 最 后 一 个 元 素 没 有 下 一 个 元 素 ， 所 以 (3,4) 


和 (6,7) 不 在 结果 中 。 


mapPartitions 还 有 其 他 的 类 似 实现 ， 比 如 mapPartitionsWithContext， 
的 一 些 状态 信息 传递 给 用 户 指定 的 输入 函数 ， 此 外 还 有 mapPartitionsWithIndex， 它 能 把 分 


它 能 把 处 理 过 程 中 


中 的 index 信息 传递 给 用 户 指定 的 输入 函数 ， 这 些 其 他 类 似 的 实现 都 是 


细节 不 同 ， 这 样 做 更 方便 使 用 者 在 不 同 场景 下 的 应 用 。 


RDD 


对 每 个 分 区 分 别 调 
ImapPartitions 方 法 


图 3-4 mapPartitions 方法 应 用 样 例 


4. mapPartitionWithlndex 


MapPartitionsRDD 


区 
基于 map 方法 ， 只 是 


mapPartitionWithIndex 方法 与 mapPartitions 方法 功能 类 似 ， 不 同 的 是 mapPartitionWith- 
Index 还 会 对 原始 分 区 的 索引 进行 追踪 ， 这 样 就 能 知道 分 区 所 对 应 的 元 素 ， 方 法 的 参数 为 一 


个 函数 ， 函 数 的 输入 为 整 型 索引 和 壕 代 器 。 方 法 源码 实现 如 下 。 
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def mapPartitionsWithIndex[U: ClassTag](f: (Int, Iterator[T]) => Iterator[U], preservesPartitioning: 
Boolean = false): RDDIU] = { 
val func = (context: TaskContext, index: Int, iter: Iterator[T]) => ffindex, iter) 
new MapPartitionsRDD(this, sc.clean(func), preservesPartitioning) 


} 
【 例 3-7】 mapPartitionWithIndex 方法 应 用 样 例 。 


val x = sc.parallelize(List(1,2,3,4,5,6,7,8,9,10), 3) 
def myfunc(index: Int, iter: Iterator[Int]) : Iterator[String] = { 


iter.toList.map(x => index + "," + x).iterator 
} 
x.mapPartitions WithIndex(myfunc).collect() 
res10: Array[String] = Array(0,1, 0,2, 0,3, 1,4, 1,5, 1,6, 2,7, 2,8, 2,9, 2,10) 


这 个 例子 中 先 得 到 一 个 名 为 的 x 序列 ， 然 后 调用 mapPartitionsWithIndex 方法 ， 参 数 为 
myfunc 函数 ， 这 个 函数 把 输入 通过 map 方法 映射 为 分 区 索引 加 值 的 形式 。 结 果 中 的 “0， 


1” 表 示 分 区 下 标 0 和 第 一 个 输入 值 1， 后 面 依次 输出 其 他 分 区 和 对 应 的 值 ， 说 明 分 区 数 是 从 
下 标 0 开始 的 。 

5. foreach 

foreach 方法 主要 是 对 每 一 个 输入 的 数据 对 象 执行 循环 操作 ， 该 方法 常用 来 输出 RDD 中 
的 内 容 。 

方法 源码 实现 : 


def foreach(f: T => Unib { 
val cleanF = sc.clean(f) 
sc.runJob(this, (iter: Iterator[T]) => iter.foreach(cleanF)) 


} 
【 例 3-8】 foreach 方法 应 用 样 例 


val c = sc.parallelize(List("xwce", "fjg", "we", "decp", "zq", "snn", "mk", "z1", "hk", "lp"), 3) 
c.foreach(x => println(x + " are from BIT")) 
xwc are from BIT 

fjg are from BIT 

wc are from BIT 

dcp are from BIT 

zq are from BIT 

ssn are from BIT 

mk are from BIT 

zl are from BIT 

hk are from BIT 

lp are from BIT 


这 个 方法 比较 直观 ， 直 接 对 c 变量 中 的 每 一 个 元 素 对 象 使 用 println 函数 ， 打 印 对 象 内 容 。 
6. foreachPartition 
foreachPartition 方法 的 作用 是 通过 迭代 器 参数 对 RDD 中 每 一 个 分 区 的 数据 对 象 应 用 函 
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数 。mapPartitions 方法 与 foreachPartition 方法 的 作用 非常 相似 ， 区 别 在 于 使 用 的 参数 是 否 有 
返回 值 。 方 法 源码 实现 如 下 。 


def foreachPartition(f: Iterator[T] => Unit) { 
val cleanF = sc.clean(f) 
sc.runJob(this, (iter: Iterator[T]) => cleanF(iter)) 


} 
【 例 3-9】 foreachPartition 方法 应 用 样 例 。 


val b = sc.parallelize(List(1, 2, 3, 4, 5, 6, 7, 8, 9), 3) 
b.foreachPartition(x => println((a,b) => x.reduce(a + b))) 
6 

15 

24 


这 个 例子 是 将 序列 b 中 的 每 一 个 元 素 进 行 reduce 操作 ， 对 每 个 分 区 中 输入 的 每 一 个 元 素 
累加 ， 例 如 对 于 分 区 0， 输 入 1 和 2 相 加 等 于 3， 然 后 把 上 个 结果 3 与 下 一 个 输入 3 相 加 就 
等 于 6， 其 他 分 区 的 运算 与 该 分 区 一 样 。 

7. glom 
作用 类 似 collect， 但 它 不 是 直接 将 所 有 RDD 直接 转化 为 数组 形式 ，glom 方法 的 作 
是 将 RDD 中 分 区 数据 组 装 到 数组 类 型 RDD 中 ， 每 一 个 返回 的 数组 包含 一 个 分 区 的 所 
有 元 素 ， 按 分 区 转化 为 数组 ， 最 后 有 几 个 分 区 就 返回 几 个 数组 类 型 的 RDD。 方 法 源码 实 
现 如 下 。 
def glom0: RDD[Array[T]] = new GlommedRDD(this) 


private[spark] class GlommedRDDIT: ClassTag](prev: RDD[T])extends RDD[Array[T]](prev) { 
override def getPartitions: Array[Partition] = firstParent[T].partitions 


Sema 


Ma 


Override def compute(split: Partition, context: TaskContext) = 
Array(firstParent[T].iterator(split, context).toArray).iterator 


} 
【 例 3-10】 glom 方法 应 用 样 例 


val a = sc.parallelize(1 to 99, 3) 

a.glom.collect 

res5: Array[Array[Int]] = Array(Array(1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 
22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33), Array(34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 
51, 52, 53, 54, 55, 56, $7, 58, 59, 60, 61, 62, 63, 64, 65, 66), Array(67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 
80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99)) 


这 个 例子 很 简洁 ， 在 执行 glom 方法 后 就 调用 collect 方法 获得 Array 数组 并 输出 ， 可 以 
看 出 a.glom 方法 输出 的 是 三 个 数组 组 成 的 RDD， 其 中 每 个 数组 代表 一 个 分 区 数据 。 

8. union 

union 方法 (等 价 于 “++”) 是 将 两 个 RDD 取 并 集 ， 取 并 集 的 过 程 中 不 会 把 相同 元 素 去 


掉 。union 操作 是 输入 分 区 与 输出 分 区 多 对 一 模式 。 方 法 源码 实现 如 下 。 


才 
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这 个 例子 》 
并 集 的 结果 ， 如 图 3-5 所 示 。 


def union(other: RDDI[T]): RDDI[T] = new UnionRDD(sc, Array(this, other)) 
class UnionRDDIT: ClassTag]( 
sc: SparkContext, 
var rdds: Seg[RDDI[T]]) 
extends RDDI[T](sc, NiD { 
override def getPartitions: Array[Partition] = { 
val array = new Array[Partition](rdds.map(_.partitions.size).sum) 
var pos=0 
for ((rdd, rddIndex) <- rdds.zipWithIndex; split <- rdd.partitions) { 
array(pos) = new UnionPartition(pos, rdd, rddIndex, split.index) 
pos += 1 
} 
alTay 
} 
override def getDependencies: Seq[Dependency[_]] ={ 
val deps = new ArrayBuffer[Dependency[_]] 
var pos=0 
for (rdd <- rdds) { 
deps += new RangeDependency(rdd, 0, pos, rdd.partitions. size) 
pos += rdd.partitions. size 
} 
deps 
} 
Override def compute(s: Partition, context: TaskContext): Iterator[T] = { 
val part = s.asInstanceOf[UnionPartition[T]] 
parent[T](part.parentRddIndex).iterator(part.parentPartition, context) 


} 


Override def getPreferredLocations(s: Partition): Seq[String] = 
s.asInstanceOf[UnionPartition[T]].preferredLocations() 
Override def clearDependencies() { 
super.clearDependencies() 
rdds = null 
} 
} 


【 例 3-11】 union 方法 应 用 样 例 。 


val a = sc.parallelize(1 to 4, 2) 

val b = sc.parallelize(2 to 4, 1) 

(a ++ b).collect 

res4: Array[Int] = Array(1, 2, 3, 4, 2, 3, 4) 


创建 2 个 RDD 变量 a 和 b， 然 后 对 a 与 b 使 用 union 方法 ， 


返回 


两 个 RDD 


UnionRDD 


union 


图 3-5 ”union 方法 应 用 样 例 


9. cartesian 
计算 两 个 RDD 中 每 个 对 象 的 笛 卡 尔 积 (例如 第 一 个 RDD 中 的 每 一 个 对 象 与 第 二 个 
RDD 中 的 对 象 join 连接 )， 但 使 用 该 方法 时 要 注意 可 能 会 出 现 内 存 不 够 的 情况 。 方 法 源码 实 


现 如 下 。 


def cartesian[U: ClassTag](other: RDDI[U]): RDDI(T, U)] = new CartesianRDD(sc, this, other) 
class CartesianRDDIT: ClassTag, U: ClassTag]( 
sc: SparkContext, 
var rddl : RDDIT], 
var rdd2 : RDDI[U]) 
extends RDDI[Pair[T, U]](sc, Nil) 
with Serializable { 
val numPartitionsInRdd2 = rdd2.partitions. size 
override def getPartitions: Array[Partition| = { 
// create the cross product split 
val array = new Array[Partition](rdd1.partitions.size * rdd2.partitions.size) 
for (sl <- rdd1.partitions; s2 <- rdd2.partitions) { 
val idx = sl.index * numPartitionsInRdd2 + s2.index 
airay(idx) = new CartesianPartition(idx, rdd1, rdd2, sl.index, s2.index) 
} 
atray 
} 
override def getPreferredLocations(split: Partition): Seq[String] = { 
val currSplit = split.asInstanceOffCartesianPartition] 
(rdd1.preferredLocations(currSplit.s1) ++ rdd2.preferredLocations(currSplit.s2)).distinct 
} 
override def compute(split: Partition, context: TaskContext) = { 
val currSplit = split.asInstanceOffCartesianPartition] 
for (x <- rdd1.iterator(currSplit.sl, context); 
y <- rdd2.iterator(currSplit.s2, context)) yield (x, y) 
} 
Override def getDependencies: Seq[Dependency[_]] = Listmnew NarrowDependency(rdd1) { 
def getParents(id: Int): Seq[Int] = ListGd / numPartitionsInRdd2) 
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}， 
new NarrowDependency(rdd2) { 


def getParents(id: Int): Seg[Int] = Listtid % numPartitionsInRdd2) 


} 


Override def clearDependencies() { 
super.clearDependencies() 
rddl = null 
rdd2 = null 
} 
} 


【 例 3-12】 cartesian 方法 应 用 样 例 。 


val x = sc.parallelize(List(1,2,3),1) 

valy = sc.parallelize(List(4,5),1) 

Xx.cartesian(y).collect 

res0: Array[(Int, Inb] = Array((1,4),(1,5),(2,4),(2,5),(3,4),(3,5)) 


例子 中 x 是 第 一 个 RDD， 其 中 的 每 个 元 素 都 跟 y 中 元 素 进 行 连接 ， 如 果 第 一 个 RDD 有 
m 个 元 素 ， 第 二 个 RDD 中 元 素 n 个 ， 则 求 第 卡尔 积 后 总 元 素 为 mxn 个 ， 本 例 结果 为 6 个， 


如 图 3-6 所 示 。 


cartesian 


图 3-6 cartesian 方法 应 用 样 例 


10. groupBy 


groupBy 方法 有 3 个 重 载 方法 ， 功 能 是 将 元 素 通过 map 函数 生成 Key-Value 格式 ， 然 后 


CartesianRDD 


使 用 reduceByKey 方法 对 Key-Value 对 进行 聚合 ， 方 法 源码 实现 如 下 。 


def groupBy[K](f: T => K, p: Partitioner)(implicit kt: ClassTag[K], ord: Ordering[K]| = nul) 


: RDDI(K, Iterable[T])] = { 


val cleanF = sc.clean(f) /对 用 户 函 数 预 处 理 

this.map(t => (cleanF(t), D).groupByKey(p) /对 数据 进行 map 操作 ， 生 成 Key-Value 对 ， 再 聚合 
} 
def groupBy[K](f: T => 天)Gmplicit kt: ClassTag[K]): RDDI(K, Iterable[T])] = 

groupBy[K](f, defaultPartitioner(this)) // 使 用 默认 分 区 器 
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def groupBy[K](f: T => K, numPartitions: Inb(implicit kt: ClassTag[K]): RDDI(K, Iterable[T])] = 
groupBy(f, new HashPartitionermumPartitions)) // 使 用 hash 分 区 器 ， 分 区 数 自 定义 


【 例 3-13】 groupBy 方法 应 用 样 例 。 


@ val a= sc.parallelize(l to 9, 3) 


a.groupBy(XK=>{ 赴 (X%2==0) "even" else "odd" }).collect 
res42: Array[(String, Seq[Int)] = Array((even,ArrayBuffer(2, 4, 6, 8))，( 
9))) 
@ vala= sc.parallelize(1 to 9, 3) 
def myfunc(a: Int) : Int = 
{ 
a%2 
} 


a.groupBy(myfunc).collect 


odd,ArrayBuffer(1, 3, 5, 7, 


res3: Array[(Int, Seq[Int])] = Array((0,ArrayBuffer(2, 4, 6, 8)), (1,ArrayBuffer(1, 3, 5, 7, 9))) 


@ vala= sc.parallelize(1 to 9, 3) 
def myfunc(a: Int) : Int = 
{ 
a%2 


} 
a.groupBy(myfunc(_), 1).collect 


res7: Array[(Int, Seq[Int)] = Array((0,ArrayBuffer(2, 4, 6, 8)), (1,ArrayBuffer(1, 3, 5, 7, 9))) 


2 


第 一 个 例子 中 是 单个 参数 ， 调 用 groupBy 方法 ， 结 果 集 的 Key 上 


只 有 两 种 ， 即 even 和 


odd， 然 后 对 相同 的 Key 进行 聚合 得 到 最 终结 果 。 第 二 个 例子 和 第 三 个 例子 本 质 一 样 ， 只 是 


使 用 的 重 载 方法 不 同 。 


11. filter 


filter 


方法 是 对 输入 元 素 进行 过 滤 ， 参 数 是 一 个 返回 值 为 boolean 站 


的 函数 ， 如 果 函 数 对 输 


入 元 素 运 算 


实现 如 下 。 


def filter(f: T => Boolean): RDDI[T] = new FilteredRDD(this, sc.clean(f)) 


【 例 3-14】 filter 方法 应 用 样 例 。 


@ vala= sc.parallelize(1 to 10, 3) 
val b=a.filter(x => X % =0) 
b.collect 
res3: Array[Int] = Array(3, 6, 9) 
@ valb = sc.parallelize(l to 8) 
b.filter(x => x < 4).collect 
resl5: Array[Int] = Array(1, 2, 3) 
@ vala= sc.parallelize(List("cat", "horse", 4.0, 3.5, 2, "dog")) 
a.filter(_ < 4).collect 
<console>:15: error: value < is not a member of Any 


结果 为 tue， 则 通过 该 元 素 ， 否 则 就 将 该 元 素 过 滤 ， 不 能 进入 结果 集 。 方 法 源码 
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第 一 个 和 第 二 个 例子 比较 好 理解 ， 因 为 a 中 元 素 都 是 整 型 ， 可 以 顺利 进行 比较 ， 但 第 三 
个 例子 会 报错 ， 因 为 a 中 有 部 分 对 象 不 能 与 整数 比较 ， 使 用 Scala 中 的 偏 函数 可 以 解决 混合 
数据 类 型 的 问题 。 

12. distinct 

distinct 方法 是 将 RDD 中 重复 的 元 素 去 掉 ， 只 留 下 唯一 的 RDD 元 素 。 方 法 源码 实现 
如 下 。 


def distinct(): RDDI[T] = distinct(partitions. size) 
def distinctnumPartitions: Int)implicit ord: Ordering[T] = null): RDDIT] = 
map(x => (x, nul)).reduceByKey((x, y) => x, numPartitions).map(_._1) 


【 例 3-15】 distinct 方法 应 用 样 例 。 


@ valc= sc.parallelize(List("Gnu", "Cat", "Rat", "Dog", "Gnu", "Rat"), 2) 
c.distinct.collect 
res6: Array[String] = Array(Dog, Gnu, Cat, Rat) 

@ vala= sc.parallelize(List(1,2,3,4,5,6,7,8,9,10)) 
a.distinct(2).partitions.length 
res16: Int = 2 

® a.distinct(3).partitions.length 
res17: Int =3 


这 个 例子 就 是 把 RDD 中 的 元 素 map 为 Key-Value 对 形式 ， 然 后 使 用 reduceByKey 将 重 
复 的 Key 合并 ， 也 就 是 把 重复 元 素 删除 ， 只 留 下 唯一 的 元 素 。 此 外 distinct 有 一 个 重 载 方法 
需要 一 个 参数 ， 这 个 参数 就 是 分 区 数 numPartitions， 从 例子 中 可 以 看 出 使 用 带 参 的 distinct 
方法 不 仅 能 删除 重复 元 素 ， 而 且 还 能 对 结果 重新 分 区 。 

13. subtract 

subtract 方法 就 是 求 集合 A-B 的 差 ， 即 把 集合 A 中 包含 集合 B 的 元 素 都 删除 ， 结 果 是 
剩 下 的 元 素 。 方 法 源码 实现 如 下 。 


def subtract(other: RDDI[T], p: Partitioner)(implicit ord: Ordering[T] = nulD): RDD[T] = { 
if (partitioner = = Some(p)) { 
val p2 = new Partitioner() { 
override def numPartitions = p.numPartitions 
override def getPartition(k: Any) = p.getPartition(k.asInstanceOf[(Any, _)]._1) 


} 
this.map(x => (x, null)).subtractByKey(other.map((_, null)), p2).keys 


} else { 
this.map(x => (x, null)).subtractByKey(other.map((_, null)), p).keys 
} 
} 


【 例 3-16】 subtract 方法 应 用 样 例 。 


val a = sc.parallelize(1 to 9, 3) 
val b = sc.parallelize(1 to 3, 3) 
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val c = a.subtract(b) 
c.collect 
res3: Array[Int] = Array(6, 9, 4, 7, 5, 8) 


这 个 例子 就 是 把 a 中 包含 b 中 的 元 素 都 删除 掉 ， 底 层 实现 使 用 subtractByKey， 也 就 是 根 
据 键 值 对 中 的 Key 来 删除 a 中 包含 的 b 中 的 元 素 。 

14. persist, cache 

cache 方法 顾名思义 ， 就 是 缓存 数据 ， 其 作用 是 把 RDD 缓存 到 内 存 中 ， 以 方便 下 一 次 计 
算 时 被 再 次 调用 。 方 法 源码 实现 如 下 。 


def cache(): this.type = persist() 


【 例 3-17】 cache 方法 应 用 样 例 。 


val c= sc.parallelize(List("a", "b", "ce", "d", "e", "f"),1) 
c.cache 
resll: c.type = ParallelCollectionRDD[10] at parallelize at <console>:21 


这 个 例子 就 是 直接 把 RDD 绥 存 在 内 存 中 。 

15. persist 

persist 方法 的 作用 是 把 RDD 根据 不 同 的 级 别 进行 持久 化 ， 通 过 参数 指定 持久 化 级 别 ， 
如 果 不 带 参数 则 为 默认 持久 化 级 别 ， 即 只 保存 到 内 存 ， 与 cache 等 价 。 

【 例 3-18】 persist 方法 应 用 样 例 。 


val a = sc.parallelize(1 to 9, 3) 
a.persist(StorageLevel. MEMORY_ONLY) 


例子 中 ， 使 用 persist 方法 ， 指 定 持久 化 级 别 为 MEMORY_ONLY， 该 级 别 等 价 于 cache 

16. sample 

sample 方法 的 作用 是 随机 的 对 RDD 中 的 元 素 采 样 ， 获 得 一 个 新 的 子 集 RDD。 根 据 参 数 
能 指定 是 否 放 回采 样 、 子 集 占 总 数 的 百分比 和 随机 种 子 。 方 法 源码 实现 如 下 。 


def sample(withReplacement Boolean,fraction: Double,seed: Long = Utils.random.nextLong): RDD[T] = { 
require(fraction >= 0.0, "Negative fraction value: " + fraction) 
if (withReplacement) { 
new PartitionwiseSampledRDDIT, T](this, new PoissonSampler[T](fraction), true, seed) 
} else { 
new PartitionwiseSampledRDDIT, T](this, new BernoulliSampler[T](fraction), true, seed) 
} 
} 


【 例 3-19】 sample 方法 应 用 样 例 。 


@ vala= sc.parallelize(1 to 1000, 2) 
a.sample(false, 0.1, 0).collect 
res4: Array[Int] = Array(3, 21, 22, 27, 48, 50, 57, 80, 88, 90, 97, 113, 126, 130, 135, 145, 162, 169, 
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182, 230, 237, 242, 267, 271, 287, 294, 302, 305, 324, 326, 330, 351, 361, 378, 383, 384, 
409, 412, 418, 432, 433, 485, 493, 497, 502, 512, 514, 521, 522, 531, 536, 573, 585, 595, 
615, 617, 629, 640, 642, 647, 651, 664, 671, 673, 684, 692, 707, 716, 718, 721, 723, 736, 
738, 756, 759, 788, 799, 827, 828, 833, 872, 898, 899, 904, 915, 916, 919, 927, 929, 951, 969, 980) 
® val a= sc.parallelize(1 to 100, 2) 
a.sample(true, 0.3, 0).collect 
res5: Array[Int] = Array(1, 1, 9, 18, 18, 24, 26, 29, 32, 34, 37, 38, 42, 43, 45, 51, 54, 56, 60, 65, 67, 70, 
73, 74, 74, 75, 85, 86, 95, 99) 


上 述 例子 中 Sample 方 法 的 第 一 个 参数 withReplacement 为 true 时 使 用 放 回 抽样 〈 泊 松 抽样 
SS)， 为 false 时 使 用 不 放 回 抽样 〈 伯 努 利 抽样 )， 第 二 个 参数 fraction 是 百分比 ， 第 三 个 参数 
seed 是 种 子 ， 也 就 是 随机 取 值 的 起 源 数字 。 从 例子 中 还 看 出 当选 择 放 回 抽样 时 ， 取 出 芯 
元 素 中 会 出 现 重 复 值 。 


3.5.2” 键 值 对 型 Transformation 算 子 


RDD 的 操作 算 子 除了 单 值 型 还 有 键 值 对 〈Key-Value) 型 。 这 里 开始 介绍 键 值 对 型 的 算 
子 ， 主 要 包括 groupByKey、combineByKey、reduceByKey、sortByKey、cogroup 和 join， 如 
表 3-5 所 示 。 


表 3-5 键 值 对 型 Transformation 算 子 


方 法 名 方法 定义 
groupByKey def groupByKey(partitioner: Partitioner): RDDI(K, Iterable[V])] 
combineByKey | > 人 V => C, mergeValue: (C,V) => C, mergeCombiners: (C, C) => C) : 
reduceByKey def reduceByKey(partitioner: Partitioner, func: (V, V) => V): RDDI(K, V)] 
sortByKey def sortByKey(ascending: Boolean = true, numPartitions: Int = self.partitions.size): RDDIP] 
cogroup def cogroup[W](other: RDDI[(K, W)], partitioner: Partitioner): RDD 
join def join[W](other: RDD[(K, W)], partitioner: Partitioner): RDD[(K, (V, W))] 


1. groupByKey 

类 似 groupBy 方法 ， 作 用 是 把 每 一 个 相同 Key 的 Value 聚集 起 来 形成 一 个 序列 ， 可 以 使 
默认 分 区 器 和 自 定义 分 区 器 ， 但 是 这 个 方法 开销 比较 大 ， 如 果 想 对 相同 Key 的 Value 聚合 
或 求 平 均 ， 则 推荐 使 用 aggregateByKey 或 者 reduceByKey。 方 法 源码 实现 如 下 。 


def groupByKeyCumPartitions: Int): RDDI[(K, Iterable[V])] = { 
groupByKey(new HashPartitioner(numpPatrtitions)) 
} 
def groupByKey(partitioner: Partitioner): RDDI[(K, Iterable[V])] = { 
val createCombiner = (Vv: V) => CompactBuffer(v) 
val mergeValue = (buf: CompactBuffer[V], v: V) => buf += V 
val mergeCombiners = (cl: CompactBuffer[V], c2: CompactBuffer[V]) => cl ++= c2 


加 泊 松 抽样 及 后 面 的 伯 努 利 抽样 都 是 对 累计 随机 事件 发 生 次 数 进 行 抽样 分 析 。 
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val bufs = combineByKey[CompactBuffer[V]]( 
createCombiner, mergeValue, mergeCombiners, partitioner, mapSideCombine=false) 
bufs.asInstanceOf[RDDI[(K, Iterable[V])]] 
} 


【 例 3-20】 groupByKey 方法 应 用 样 例 。 


val a = sc.parallelize(List("mk", "zgq", "xwce", "fjg", "dcp", "snn"), 2) 
val b =a.keyBy(x => x.length) // keyBy 方法 调用 map(x => (f(x),x)) 生 成 键 值 对 
b.groupByKey.collect 


res6: Array[(Int, Iterable[String])] = Array((2,CompactBuffer(mk, zq)), (3,CompactBuffer(xwc, fjg, dcp, snn))) 
这 个 例子 先 创 建 包 含 List 集合 对 象 的 RDD， 人 然后 使 用 keyBy 方法 生成 Key-Value 键 值 


对 ， 然 后 调用 groupByKey 方法 将 相同 Key 的 Value 聚合 ， 最 后 调用 collect 方法 以 数组 形式 
输出 ， 如 图 3-7 所 示 。 


RDD MappedRDD ShuffleRDD 


groupByKey 


keyBy 方 法 的 本 质 


是 map(fKx),x) 


图 3-7 groupByKey 方法 应 用 样 例 


2. combineByKey 
combineByKey 方法 能 高 效 地 将 键 值 对 形式 的 RDD 相同 Key 的 Value 合并 成 序列 形式 ， 
] 户 能 自 定义 RDD 的 分 区 器 和 是 否 在 map 端 进 行 聚合 操作 。 方 法 源码 实现 如 下 。 


def combineByKey[C](createCombiner: V => C, mergeValue: (C, V) => C, mergeCombiners: (C, C) => 
COC): RDDI(K, CO)]={ 

combineByKey(createCombiner, mergeValue, mergeCombiners, defaultPartitioner(self)) 

} 

def combineByKey[C](createCombiner: V => C, 
mergeValue: (C, V) => C, // 输 入 2 个 不 同类 型 参数 ， 返 回 其 中 一 个 类 型 参数 

mergeCombiners: (C, C) => C， // 输 入 2 个 同类 型 参数 ， 返 回 一 个 参数 

numPartitions: Int): RDD[(K,C)] ={ 

combineByKey(createCombiner, mergeValue, mergeCombiners, new HashPartitioner(numPartitions)) 
} 

def combineByKey[C](createCombiner: V => C， 

mergeValue: (C, V) => C， 

mergeCombiners: (C, C) => C， 


partitioner: Partitioner, 
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mapSideCombine: Boolean = true, 
serializer: Serializer = null): RDDI[(K, C)]={ 
require(mergeCombiners != null, "mergeCombiners must be defined") // required as of Spark 0.9.0 
if (keyClass.isArray) { 
if (mapSideCombine) { 
throw new SparkException("Cannot use map-side combining with array keys.") 

} 

if (partitioner.isInstanceOf[HashPartitioner]) { 

throw new SparkException("Default partitioner cannot partition array keys.") 


} 
} 
val aggregator = new Aggregator[K, V, C]( 
self.context.clean(createCombiner), 
self.context.clean(mergeValue), 
self.context.clean(mergeCombiners)) 
if (self.partitioner = = Some(partitioner)) { 
self.mapPartitions(iter => { 
val context = TaskContext.get() 
new Interruptiblelterator(context, aggregator.combineValuesByKey(iter, context)) 
}, preservesPartitioning = true) 
} else { 
new ShuffledRDDIK, V, Cl(self, partitioner) 
.SetSerializer(serializer) 
.SetAggregator(aggregator) 
.SetMapSideCombine(mapSideCombine) 


} 
【 例 3-21】 combineByKey 方法 应 用 样 例 。 


val a = sc.parallelize(List("xwce", "fjg", "we", "dcp", "zq", "snn", "mk", "z1", "hk", "lp"), 2) 

val b = sc.parallelize(List(1,2,2,3,2,1,2,2,2,3), 2) 

val c = b.zip(a) // 把 a 和 b 中 对 应 元 素 组 合成 键 值 对 ， 如 Array((1,xwc), (3,fjg), (2,wc), (3,dcp).… 
val d = c.combineByKey(List( ), (x:List[String], y:String) => y :: x, (x:List[String], y:List[String] = Xx ::: y) 
d.collect 

res13: Array[(Int, List[String])] = Array((2,List(zq, we, fjg, hk z1, mk)), (1,List(xwc, snn)), (3,List(dcp, Ip))) 


在 使 用 zip 方法 得 到 键 值 对 序列 c 后 调用 combineByKey 方法 ， 把 相同 Key 的 Value 合 
并 到 List 中 。 这 个 例子 中 使 用 3 个 参数 的 重 载 方法 ， 该 方法 第 一 个 参数 createCombiner， 作 
是 把 元 素 V 转换 到 另 一 类 型 元 素 C， 该 例子 中 使 用 的 参数 是 List(_)， 表 示 将 输入 的 元 素 放 
在 List 集合 中 ， 第 二 个 参数 mergeValue 的 含义 是 把 元 素 V 合并 到 元 素 C 中 ， 在 该 例子 中 使 用 
的 是 x:List[String], y:String) => y :: x， 表 示 将 y 字符 串 合 并 到 x 链表 集合 中 ; 第 三 个 参数 
mergeCombiners 的 含义 是 将 两 个 C 元 素 合 并 ， 在 该 例子 中 使 用 的 是 x:List[String], y:List[String] 
=X::yY， 表 示 把 X 链 表 集合 中 的 内 容 合并 到 y 链表 集合 中 。 

3. reduceByKey 
使 用 一 个 reduce 函数 来 实现 对 相同 Key 的 Value 的 聚集 操作 ， 在 发 送 结 果 给 reduce 前 


SS 


< 


Mt 
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会 在 map 端 执行 本 地 merge 操作 。 该 方法 的 底层 实现 就 是 调用 combineByKey 方法 的 一 个 


载 方法 。 方 法 源码 实现 如 下 。 


def reduceByKey(partitioner: Partitioner, func: (V, V) => V): RDDI[(K, V)] = { 
combineByKey[V]((v: V) => v, func, func, partitioner) 

} 

def reduceByKey(func: (V, V) => V, numPartitions: Inb: RDDI[(K, V)] = { 
reduceByKey(new HashPartitioner(numPartitions), func) 

} 

def reduceByKey(func: (V, V) => V): RDDI(K, V)|={ 
reduceByKey(defaultPartitioner(self), func) 

} 


【 例 3-22】 reduceByKey 方法 应 用 样 例 。 


@ vala= sc.parallelize(List("dcp", "fjg", "snn", "we", "zdq"), 2) 

val b = a.map(x => (x.length, x)) 

b.reduceByKey((a,b) => a + b).collect 

res22: Array[(Int, String)] = Array((2,wczq), (3,dcpfjgsnn)) 
@ val a= sc.parallelize(List(3,12,124,32,5 ), 2) 

val b = a.map(X => (x.toString.length, x)) 

b.reduceByKey(_ + _).collect 

res24: Array[(Int, Int)] = Array((2,44), (1,8), (3,124)) 


这 个 例子 先 用 map 方法 映射 出 键 值 对 ， 然 后 调 


Nr 


IN 
PN 


j reduceByKey 方法 对 相同 Key 的 Value 


值 进行 累加 。 第 一 个 例子 是 使 用 的 字符 串 ， 故 使 用 聚合 相 加 后 是 字符 串 的 合并 ， 第 二 个 例子 


使 用 的 是 数字 ， 结 果 是 相应 的 相同 Key 的 Value 数字 相 加 。 
4. SortByKey 
这 个 函数 会 根据 Key 值 对 键 值 对 进行 排序 ， 如 果 Key 是 字母 ， 则 按 字 典 顺序 排序 ， 


如 


果 Key 是 数字 ， 则 从 小 到 大 排序 〈 或 从 大 到 小 )， 该 方法 的 第 一 个 参数 控制 是 否 为 升序 排 


序 ， 当 为 rue 时 是 升序 ， 反 之 则 为 降序 。 方 法 源码 实现 如 下 
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o 


def sortByKey(ascending: Boolean = true, numPartitions: Int = self.partitions.size) : RDDI(K, V)] = 


{ 
val part = new RangePartitioner(numPartitions, self, ascending) 
new ShuffledRDDI[K, V, V](self, part) 
.SetKeyOrdering(if (ascending) ordering else ordering.reverse) 


【 例 3-23】 sortByKey 方法 应 用 样 例 。 


val a= sc.parallelize(List("dog"，"cat"，"ow]"，"gnu"，"ant"), 2) 

valb = sc.parallelize(1 to a.count.toInt, 2) //a.count 得 到 单词 的 字母 个 数 
val c = a.zip(b) 

c.sortByKey(true).collect 

res74: Array[(String, mb] = Array((ant,5), (cat,2), (dog,1), (gnu,4), (ow],3)) 
c.sortByKey(false).collect 
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res75: Array[(String, Int)] = Array((owl,3), (gnu,4), (dog,1), (cat,2), (ant5)) 


这 个 例子 先 通 过 zip 方法 得 到 包含 键 值 对 的 变量 ce， 然 后 演示 了 sortByKey 方法 中 参数 
为 true 和 false 时 的 计算 结果 。 本 例 中 的 Key 是 字符 串 ， 故 可 以 看 出 当 Key 为 true 时 ， 
结果 是 按 Key 的 字典 顺序 升序 输出 ， 反 之 则 为 降序 输出 结果 ; 当 Key 为 数字 的 时 候 ， 则 
按 大 小 排列 。 

5. cogroup 

cogroup 方法 是 一 个 比较 高 效 的 函数 ， 能 根据 Key 值 聚集 最 多 3 个 键 值 对 的 RDD， 并 把 
相同 Key 值 对 应 的 Value 聚集 起 来 。 方 法 源码 实现 如 下 。 


/参数 为 一 个 RDD 情况 
def cogroup[W](other: RDD[(K, W)], partitioner: Partitioner): RDDI[(K, (Iterable[V], Iterable[W]))] = { 
if (partitioner.isInstanceOf[HashPartitioner] && keyClass.isArray) { 
throw new SparkException("Default partitioner cannot partition array keys.") 
} 
val cg = new CoGroupedRDDI[K](Seq(self, other), partitioner) 


cg.mapValues { case Array(vs, wl1s) => 
(vs.asInstanceOf[Iterable[V]], wls.asInstanceOf[Iterable[W]]) 


} 
// 参 数 为 两 个 RDD 情况 
def cogroup[W1, W2](otherl: RDDI[(K, W1)], other2: RDD[(K, W2)], partitioner: Partitioner): RDDI(K, 
(Iterable[V], Iterable[W1], Iterable[W2]))] = { 
if (partitioner.isInstanceOf[HashPartitioner] && keyClass.isArray) { 
throw new SparkException("Default partitioner cannot partition array keys.") 
} 
val cg = new CoGroupedRDDIK](Seq(self, otherl, other2), partitioner) 
cg.mapValues { case Array(vs, wls, w2s) =>(vs.asInstanceOf[Iterable[ V]], 
wils.asInstanceOf[Iterable[W1]], 
w2s.asInstanceOf[Iterable[W2]]) 


} 
/参数 为 3 个 RDD 情况 
def cogroup[W1, W2, W3](otherl: RDDI[(K, W1)], 
other2: RDDI[(K, W2)], 
other3: RDDI[(K, W3)], 
partitioner: Partitioner) 
: RDDI[(K, (Iterable[V], Iterable[W1], Iterable[W2], Iterable[W3]))]={ 
if (partitioner.isInstanceOf[HashPartitioner] && keyClass.isArray) { 
throw new SparkException("Default partitioner cannot partition array keys.") 
} 
val cg = new CoGroupedRDDI[K](Seq(self, otherl, other2, other3), partitioner) 
cg.mapValues { case Array(vs, W1S, W2s, w3s) => 
(vs.asInstanceOf[Iterable[V]], 
wils.asInstanceOffIterable[W1]], 
w2s.asInstanceOffIterable[W2]], 
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w3s.asInstanceOf[Iterable[W3]]) 
} 
} 


【 例 3-24】 cogroup 方法 应 用 样 例 。 


@ vala= sc.parallelize(List(1,2,2 ,3, 1, 3), 1) 
val b = a.map(x => (x, "b")) 
val c = amap(y => (y, "c")) 
b.cogroup(c).collect 
res25: Array[(Int, (Iterable[String], Iterable[String]))] = Array((1,(CompactBuffer(b, b), 
CompactBuffer(c, c))), (3,(CompactBuffer(b, b),CompactBuffer(c, c))), (2,(CompactBuffer(b, 

b),CompactBuffer(c, c)))) 

@ vald=a.map(m => (m, "x")) 
b.cogroup(c, d).collect 
res26: Array[(Int, (Iterable[String], Iterable[String], Iterable[String]))] = Array((1,(CompactBuffer(b,b) 
,CompactBuffer(c, ¢),CompactBuffer(x, x))), (3,(CompactBuffer(b, b),CompactBuffer(c, c)， 
CompactBuffer(x, x))), (2,(CompactBuffer(b, b),CompactBuffer(c, c),CompactBuffer(x, x)))) 


例子 中 有 两 个 小 例子 ， 依 次 是 单个 参数 和 两 个 参数 的 情况 ， 使 用 cogroup 方法 对 单个 
RDD 和 两 个 RDD 进行 聚集 操作 。 

6. join 

对 键 值 对 的 RDD 进行 cogroup 操作 ， 然 后 对 每 个 新 的 RDD 下 Key 的 值 进行 箔 卡尔 积 操 
作 ， 再 对 返回 结果 使 用 flatMapValues 方法 ， 最 后 返回 结果 。 方 法 源码 实现 如 下 。 


def join[W J](other: RDD[(K, W)], partitioner: Partitioner): RDDI[(K, (V, W))] = { 
this.cogroup(other, partitioner).flatMapValues( pair => 
for (v <- pair._1.iterator; w<- pair. 2.iterator) yield (v, w) 
) 
} 


【 例 3-25】 join 方法 应 用 样 例 。 


val a= sc.parallelize(List("fjg", "wce", "xwce","dcp"), 2) 

val b =a.keyBy(_.length) // 得 到 诸如 (3，"fg") ， (2，"wc") 的 键 值 对 序列 

val c = sc.parallelize(List("fjg", "wce", "snn", "zq", "Xxwce","dcp"), 2) 

val d=c.keyBy(_ .length) 

b.join(d).collect 

res29: Array[(Int, (String, String))] = Array((2,(wc,wc)), (2,(wc,zq)), (3,(fjg,fje)), (3,(fjg,snn)), 
(3,(fjg,xwoe)), (3,(fjg,dcp)), (3,(xwc,fjg)), (3,(xwc,snn)), (3,(XwWc,XwWc)), (3,(xwc,dcp)), (3,(dcp,fjg)), 
(3,(dcp,snn)), (3,(dcp,xwc)), (3,(dcp,dcp))) 


这 个 例子 先 构造 两 个 包含 键 值 对 元 素 的 变量 b 和 d， 然 后 调用 join 方法 ， 得 到 join 后 的 
结果 。 根 据 源 码 实现 ，join 方法 本 质 是 cogroup 方法 和 flatMapValues 方法 的 组 合 ， 其 中 
cogroup 方法 得 到 的 是 聚合 值 ，flatMapValues 方法 实现 的 是 笛 卡 尔 积 ， 笛 卡尔 积 的 过 程 在 各 
个 分 区 内 进行 ， 如 例子 中 的 Key 等 于 2 分 区 ，wc 与 (wc，zq) 求 笛 卡 尔 积 ， 得 到 C,(wc,wc)) 和 
(2,(wce,zq)) 的 结果 。 样 例 的 实现 过 程 如 图 3-8 所 示 。 
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MappedRDD 


3.5.3 ”Action 算 子 


当 Spark 的 计算 模型 中 出 现 Action 算 子 时 才 会 执行 提交 作业 的 runJob 动作 ， 这 时 会 角 
发 后 续 的 DAGScheduler 和 TaskScheduler 工作 。 这 里 主要 讲解 常用 的 Action 算 子 ， 有 


collect、reduce、take、 


FlatMap ValuesRDD 


MappedRDD (2,(We,wce)) 
(2,(wc,zq)) 


3,(fjg,f} 

fatMapValues 。 0 

(3,(fjg,xwc)) 

(3， (3,(fjg.dcp)) 
((fjg,xwc,dcp), (3,(xwc,fjg)) 
fig,snn,xwce,dcp))) (3,(xwe,snn)) 
(3,(XWCXwWc)) 

(3,(xwc,dcp)) 

(3,(dep,fjg)) 

(3,(dcp,snn)) 


求 笛 卡尔 积 (3,(dcp,xwc)) 
(3,(dcp,dcp)) 


图 3-8 join 方法 应 用 样 例 


二 


top、count、takeSample、SaveAgsTIextFile、countByKey、aggregate， 


体 方法 和 定义 如 表 3-6 所 示 。 


表 3-6 Action 算 子 


~ 


方 法 名 方法 定义 
collect def collect(): Array[T] 
reduce def reduce(f: (T, T) => T): T 
take def take(num: Int): Array[T] 
top def top(num: Int)implicit ord: Ordering[T]): Array[T] 
count def count(): Long 
takeSample def takeSample(withReplacement: Boolean,num: Int,seed: Long = Utils.random.nextLong): Array[T] 
saveAsTextFile def saveAsTextFile(path: String) 
countByKey def countByKey(): Map[K, Long] 
aggregate def aggregate[U: ClassTag](zeroValue: U)(seqOp: (U, T) => U, combOp: (U, U) => U): U 
1. collect 
collect 方法 的 作用 是 把 RDD 中 的 元 素 以 数组 的 方式 返回 。 方 法 源码 实现 如 下 。 


def collect(): Array[T] = { 


val results 


= sc.runJob(this, (iter: Iterator[T]) => iter.toArray) 


Array.concat(results: _*) 
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【 例 3-26】 collect 方法 应 用 样 例 。 


val c= sc.parallelize(List("a", "b", "ce", "d", "e", "f"), 2) 
c.collect 
res29: Array[String] = Array(a, b, c, d, e, f) 


这 个 例子 直接 把 RDD 中 的 元 素 转 换 成 数组 返回 。 

2. reduce 

reduce 方法 使 用 一 个 带 两 个 参数 的 函数 把 元 素 进行 聚集 ， 返 回 一 个 元 素 结果 ， 注 意 该 函 
数 中 的 三 元 操作 应 该 满足 交换 律 和 结合 律 ， 这 样 才能 在 并 行 系统 中 正确 计算 。 方 法 源码 实现 
如 下 。 


def reduce(f: (T, T) => D): T= { // 输 入 是 两 个 参数 的 函数 ， 返 回 一 个 什 
val cleanF = sc.clean(f) 
val reducePartition: Iterator[T] => Option[T] = iter => { 
if (iter.hasNext) { 
Somel(iter.reduceLeft(cleanF)) 
}else { 
None 
} 
} 
var jobResult: Option[T] = None 
val mergeResult = (index: Int, taskResult: Option[T]) => { 
if (taskResult.isDefined) { 
jobResult = jobResult match { 
case Some(value) => Some(f(value, taskResult.get)) 
case None => taskResult 
} 
} 
} 


sc.runJob(this, reducePartition, mergeResult) 
jobResult.getOrElse(throw new UnsupportedOperationException("empty collection")) 


} 
【 例 3-27】 reduce 方法 应 用 样 例 。 


二 


val a = sc.parallelize(1 to 10) 
a.reduce((a,b)=> a + b) 
res41: Int = 55 


这 个 例子 使 用 简单 的 函数 将 输入 的 元 素 相 加 ， 过 程 是 先 输入 前 两 个 元 素 使 其 相 加 ， 然 后 
将 得 到 的 结果 与 下 一 个 输入 元 素 相 加 ， 依 次 规则 计算 出 所 有 元 素 的 和 。 

3. take 

take 方 法 会 从 RDD 中 取出 前 n° 个 元 素 。 方 法 是 先 扫描 一 个 分 区 ， 之 后 从 分 区 中 得 到 结果 ， 
然后 评估 得 到 的 结果 是 否 达 到 取出 元 素 个 数 ， 如 果 没 达到 则 继续 从 其 他 分 区 中 扫描 获取 。 方 法 


加 此 处 mn 可 以 为 开发 人 员 指 定 的 任意 有 效 值 ， 之 后 出 现 类 似 字 母 ， 如 未 特殊 说 明 皆 为 此 意 。 


65 


源码 实现 如 下 。 


def take(num: Inb: Array[T]={ 
if um= =0){ 
return new Array[T](0) 
} 
val buf = new ArrayBuffer[T] 
val totalParts = this.partitions.length 
var partsScanned = 0 
while (buf.size < num && partsScanned < totalParts) { 
var numPartsToTry= 1 
if (partsScanned > 0) { 
if (buf.size = = 0) { 
numPartsToTry = partsScanned * 4 
}else { 
numPartsToTry = Math.max((1.5 * num * partsScanned / buf.size).toInt - partsScanned, 1) 
numPartsToTry = Math.min(numPartsToTry, partsScanned * 4) 


} 


val left = num - buf.size 
val p = partsScanned until math.min(partsScanned + numPartsToTry, totalParts) 
val res = sc.runJob(this, (it: Iterator[T]) => it.take(left).toArray, p, allowLocal = true) 
res.foreach(buf ++= _.takenum - buf.size)) 
partsScanned += numPartsToTry 

} 

buf.toArray 

} 


【 例 3-28】 take 方法 应 用 样 例 。 


@ valb= sc.parallelize(List("a", "b", "c", "d", "e"), 2) 
b.take(2) 
res1l8: Array[String] = Array(a, b) 
@ valb= sc.parallelize(l to 100, 9) 
b.take(30) 
res6: Array[Int] = Array(1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21,22, 23, 24, 
25, 26, 27, 28, 29, 30) 


这 两 个 例子 分 别 演示 了 字母 和 数字 的 情况 ， 其 实 工作 原理 都 相同 ， 即 从 分 区 中 按 先 后 顺 
序 取 元 素 。 
4. top 


top 方法 会 利用 隐 式 排序 转换 方法 〈 见 实现 源码 中 implicit 方法 ) 来 获取 最 大 的 前 n 个 元 
素 。 方 法 源码 实现 如 下 。 


def top(num: Int)(implicit ord: Ordering[T]): Array[T] = takeOrdered(num)(ord.reverse) 
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def takeOrderednum: Inbdimplicit ord: Ordering[T]): Array[T] = { 


fmum==0){ 
Array.empty 
} else { 


val mapRDDs = mapPartitions { items => 
val queue = new BoundedPriorityQueue[T]num)(ord.reverse) 
queue ++= util.collection.Utils.takeOrdered(items, num)(ord) 
Iterator.single(queue) 
} 
if (mapRDDs.partitions.size = = 0) { 
Array.empty 
}else { 
mapRDDs.reduce { (queuel, queue2) => 
queuel ++= queue2 
queuel 


}.toArray.sorted(ord) 


} 
} 


【 例 3-29】 top 方法 应 用 样 例 。 


val c = sc.parallelize(Array(1, 3, 2,4, 9, 2,11,5), 3) 
c.top(3) 
resl0:Array[Int] = Array(11, 9, 9) 


例子 显示 了 top 的 使 用 方法 ， 很 简洁 ， 直 接 输 入 元 素 个 数 作为 参数 就 能 得 到 前 k 个 元 素 
的 值 。 

5. count 

count 方法 计算 并 返回 RDD 中 元 素 的 个 数 。 方 法 源码 实现 如 下 。 


def count(): Long = sc.runJob(this, Utils.getIteratorSize _).sum 
def runJob[T, U: ClassTag](rdd: RDDIT], func: Iterator[T] => U): Array[U]= { 
runJob(rdd, func, 0 until rdd.partitions.size, false) 


} 
【 例 3-30】 count 方法 应 用 样 例 。 


val c = sc.parallelize(Array(1,3, 2,4, 9, 2,11,5), 2) 
c.count 


res3: Long=8 


6. takeSample 

takeSample 方法 返回 一 个 固定 大 小 的 数组 形式 的 采样 子 集 ， 此 外 还 把 返回 的 元 素 顺序 随 
机 打 乱 ， 方 法 的 3 个 参数 含义 依次 为 是 否 放 回 数据 、 返 回 取样 的 大 小 和 随机 数 生 成 器 的 种 
子 。 方 法 源码 实现 如 下 。 
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def takeSample(withReplacement: Boolean， 


} 


num: Int, 
seed: Long = Utils.random.nextLong): Array[T] = { 
val numStDev= 10.0 
if mum < 0)f{ 
throw new IllegalAreumentException("Negative number of elements requested") 
}elseif qum = =0){ 
return new Array[T](0) 
} 
val initialCount = this.count() 
if (initialCount= =0){ 
return new Array[T](0) 
} 
val maxSampleSize = Int.MaxValue - (numStDev * math.sgrt(Int.MaxValue)).toInt 
if num > maxSampleSize) { 
throw new IllegalAreumentException("Cannot support a sample size > Int.MaxValue - "+ 
s"$numStDev * math.sgrt(Int.MaxValue)") 
} 
val rand = new Random(seed) 
if (IlwithReplacement && num >= initialCount) { 
return Utils.randomizeInPlace(this.collect(), rand) 
} 
val fraction = SamplingUtils.computeFractionForSampleSize(num, initialCount, 
withReplacement) 
var samples = this.sample(withReplacement, fraction, rand.nextInt()).collect() 
var numlters = 0 
while (samples.length < num) { 
log Warning(s"Needed to re-sample due to insufficient sample size. Repeat #$numlters") 
samples = this.sample(withReplacement, fraction, rand.nextInt()).collect() 
numlters += 1 


} 


Utils.randomizeInPlace(samples, rand).take(num) 


【 例 3-31】 takeSample 方法 应 用 样 例 。 


val x = sc.parallelize(1 to 100, 2) 

x.takeSample(true, 30, 1) 

res13: Array[Int] = Array(72, 37, 96, 47, 40, 96, 57, 100, 8, 44, 82, 11, 32, 47, 99, 94, 37, 97, 52, 
41, 100, 78, 93, 11, 6, 100, 75, 14, 47, 16) 


这 个 例子 直接 使 用 takeSample 方法 ， 得 到 30 个 固定 数字 的 档 
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I 
Tt 


本 ， 采 取 有 放 回 抽检 


7. SaveAsTextFile 
saveAsTextFile 方法 把 RDD 存储 为 文本 文件 ， 一 次 存 一 行 。 方 法 源码 实现 如 下 。 


def saveAsTextFile(path: String) { 
val nullWritableClassTag = implicitly[ClassTag[NullWritable]] 
val textClassTag = implicitly[ClassTag[ Text]] 
val r= this.map(x => (NullWritable.get(), new Text(x.toString))) 
rddToPairRDDFunctions(r)(null WritableClassTag, textClassTag, null) 
.SaveAsHadoopFile[TextOutputFormat[NullWritable, Text]](path) 
} 
def saveAsTextFile(path: String, codec: Class[_ <: CompressionCodec]) { 
// 参 数 可 选择 压缩 方式 
val nullWritableClassTag = implicitly[ClassTag[NullWritable]] 
val textClassTag = implicitly[ClassTag[ Text]] 
val r= this.map(x => (NullWritable.get(), new Text(x.toString))) 
rddToPairRDDFunctions(7)(nullWritableClassTag, textClassTag, null) 
.SaveAsHadoopFile[TextOutputFormat[NullWritable, Text]](path, codec) 


} 
【 例 3-32】 saveAsTextFile 方法 应 用 样 例 。 


val a = sc.parallelize(1 to 100, 3) 

saveAsTextFile("BIT_Spark") 

// 控 制 台 打印 出 的 部 分 日 志 

15/08/04 10:27:58 INFO FileOutputCommitter: Saved output of task 'attempt_201508041027_0001 
_m 000002_5' to file:/home/hadoop/spark/bin/BIT_Spark 

/在 当前 路 径 下 可 以 看 到 输出 3 个 文件 part-***， 原 因 是 RDD 有 3 个 分 区 ， 每 个 分 区 默认 输 H 
/个 文件 ，SUCCESS 文件 执行 表示 成 功 。 

hadoop @master:~/spark/bin/BIT_Spark$ ls 

part-00000 part-00001 part-00002 _SUCCESS 

// 查 看 第 一 个 分 区 文件 的 内 容 

hadoop @master:~/spark/bin/BIT_Spark$ vim part-00000 

1 


ER 


2 
3 
4 
5 


8. countByKey 
类 似 count 方法 ， 不 同 的 是 countByKey 方法 会 根据 相同 的 Key 计算 其 对 应 的 Value 个 
数 ， 返 回 的 是 map 类 型 的 结果 。 方 法 源码 实现 如 下 。 


def countByYKey0O: Map[K, Long] = self.mapValues(_ => 1L).reduceByKey(_ + _).collectO.toMap 


【 例 3-33】 countByKey 方法 应 用 样 例 。 


val a = sc.parallelize(List((1, "bit"), (2, "xwce"), (2, "fjg"), (3, "we"),(3, "we"),(3, "wce")), 2) 
a.countByKey 
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res3: scala.collection.Map[Int,Long] = Map(1 -> 1, 2 -> 2,3 -> 3) 


这 个 例子 先 构 造 键 值 对 变量 a， 然 后 使 用 countByKey 方法 对 相同 Key 的 Value 进行 统 
计 ， 过 程 是 先 调 用 mapValue 方法 把 Value 映射 为 1， 再 调用 reduceByKey 方法 得 到 相同 到 
Key 对 应 的 Value 个 数 。 

9. aggregate 

aggregate 方法 先 将 每 个 分 区 里 面 的 元 素 进 行 聚合 ， 然 后 用 聚合 函数 将 每 个 分 区 的 结果 和 
初始 值 (zeroValue) 进 行 聚 合 操作 。 这 个 函数 最 终 返 回 的 类 型 不 需要 和 RDD 中 元 素 的 类 型 一 致 。 
aggregate 有 两 个 函数 seqOp 和 combOp， 这 两 个 函数 都 是 输入 两 个 参数 ， 输 出 一 个 参 
数 ， 其 中 seqOp 函数 可 以 看 成 是 reduce 操作 ，combOp 函数 可 以 看 成 是 第 二 个 reduce 操作 
(一 般 用 于 聚合 各 分 区 结果 到 一 个 总 体 结果 )。 由 定义 可 以 看 出 ，combOp 操作 的 输入 和 输 昌 
类 型 必须 一 致 。 方 法 源码 实现 如 下 。 


i 


ie es 


def aggregate[U: ClassTag](zeroValue: U)(seqOp: (U, T) => U, combOp: (U, U)=> U): U={ 
var jobResult = Utils.clone(zeroValue, sc.env.closureSerializer.newInstance()) 
val cleanSeqOp = sc.clean(seqOp) 
val cleanCombOp = sc.clean(combOPp) 
val aggregatePartition = (it: Iterator[T]) => it.aggregate(zeroValue)(cleanSeqOp, cleanCombOp) 
val mergeResult = (index: Int, taskResult: U) => jobResult = combOp(UobResult taskResult) 
sc.runJob(this, aggregatePartition, mergeResult) 
jobResult 
} 


【 例 3-34】 aggregate 方法 应 用 样 例 。 


/1/ 分 区 0 的 reduce 操作 是 max(0, 2,3)=3 
/1/ 分 区 1 的 reduce 操作 是 max(0, 4,5) = 5 
/1/ 分 区 2 的 reduce 操作 是 max(0, 6,7) =7 


/ 最 后 的 combine 操作 是 0+3+5+7=15 

// note the final reduce include the initial value 

@ valz= sc.parallelize(List(2,3,4,5,6,7), 3) 
Z.aggregate(0)((ab) => math.max(a, b), (cd) => c+d) 
res6: Int = 15 

/1/ 分 区 0 的 reduce 操作 是 max(3, 2.3)= 3 

/1/ 分 区 1 的 reduce 操作 是 max(3, 4,5) = 5 

/1/ 分 区 2 的 reduce 操作 是 max(3, 6,7)=7 

/ 最 后 的 combine 操作 是 3+3+5+7=18 

@ valz= sc.parallelize(List(2,3,4,5,6,7), 3) 
Z.aggregate(3)((ab) => math.max(a, b), (cd) => c+d) 
res7: Int = 18 

@ valz= sc.parallelize(List("a","b","c","d","e","f"),2) 
Zz.aggregate("")(_+_,_+ ) 
res8: String = defabc 

@ valz= sc.parallelize(List("a","b","c","d","e","f"),2) 


70 


在 Spark 中 一 个 分 


(reduce) 
中 是 对 3 
各 分 区 的 


s 
总 的 思想 


法 然后 再 
10. 


Zz.aggregate("x")(_+_,_ + ) 
res9: String = xxdefxabc 


区 对 应 一 个 task， 从 源码 来 看 ，zeroValue 参与 每 个 分 区 的 seqOp 


方法 和 最 后 的 combOp (第 二 个 reduce) 方法 ， 先 对 每 个 分 区 求 reduce， 在 该 例子 


个 分 区 分 别 求 Max 操作 ， 得 到 分 区 最 大 值 ， 和 有 


结果 和 zeroValue 相 加 ， 最 后 得 到 结果 


o 


后 面 两 个 例子 使 用 的 是 字符 串 ， 与 aggregate 方法 的 思路 一 样 


使 用 combOp 方法 把 各 分 区 的 结果 聚合 相 加 ， 得 到 最 终结 


fold 


到 的 结果 参与 combOp 方法 ， 即 把 
值 ， 从 前 两 个 例子 可 以 看 出 这 个 操作 先 分 后 


先 对 各 分 区 求 seqOp 方 


o 


fold 方法 与 aggregate 方法 原理 类 似 ， 区 别 就 是 少 了 一 个 seqOp 方法 。fold 方法 是 把 每 个 
素 进 行 聚 合 ， 然 后 调用 reduce (op ) 方法 处 理 。 方 沪 


分 区 的 元 


def fold(zeroValue: T)(op: (T, T) => T): T={ 


源码 实现 如 下 。 


// Clone the zero value Since we will also be serializing it as part of tasks 


Var jobResult = Utils.clone(zeroValue, sc.env.closureSerializer.newInstance()) 


val cleanOp = sc.clean(op) 


val foldPartition = (iter: Iterator[T]) => iter.fold(zeroValue)(cleanOp) 


val mergeResult = (index: Int, taskResult: T) => jobResult = op(GobResult taskResulb 


sc.runJob(this, foldPartition, mergeResult) 
jobResult 
} 


【 例 3-3S】 fold 方法 应 用 样 例 。 


// 分 区 0 的 reduce 操作 是 0+1+2+3=6 
/ 分 区 1 的 reduce 操作 是 0+4+5+6=15 
// 分 区 2 的 reduce 操作 是 0+7+8+9=24 
/ 最 后 的 combine 操作 是 0+6+15+24=45 
® val a= sc.parallelize(List(1,2,3,4,5,6,7,8,9), 3) 
a.fold(0)(_+_) 
resll:: Int = 45 
/ 分 区 0 的 reduce 操作 是 1+1+2+3=7 
/ 分 区 1 的 reduce 操作 是 1+4+5+6=16 
// 分 区 2 的 reduce 操作 是 1+7+8+9=25 
/ 最 后 的 combine 操作 是 1+7+16+25=53 
® val a= sc.parallelize(List(1,2,3,4,5,6,7,8,9), 3) 
a.fold(1)(_+._) 
res12: Int = 53 


这 个 例子 中 的 使 用 方式 与 aggregate 方法 非常 相似 ， 注 意 ，zeroValue 参与 所 有 分 区 计 
计算 保证 每 个 分 区 的 独立 计算 ， 它 与 aggregate 最 大 的 区 别 是 aggregate 对 不 同 分 区 


算 。fold 


EA 


提交 的 最 


终结 果 定义 了 一 个 专门 的 comOp 函数 来 处 到 


， 而 fold 方 汝 


是 采用 一 个 方法 来 处 理 
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aggregate 的 两 个 方法 的 过 程 。 


3.6 本章 小 结 


本 章 主要 为 读者 讲述 了 Spark 核心 开发 部 分 ， 讲 述 了 SparkContext 的 作用 与 创建 过 程 ， 


还 对 RDD 的 概念 模型 进行 介 


， 说 明了 RDD 的 Transformation 和 Action 操作 的 内 涵 意 义 。 


介绍 Spark 编程 模型 后 在 实践 环节 列 出 了 主要 的 Transformation 和 Action 方法 的 使 用 范例 ， 
同时 结合 方法 源码 说 明了 范例 计算 过 程 。 第 六 章 将 继续 结合 源码 深入 介 
和 Spark 调度 机 制 。 下 一 章 将 逐一 介绍 Spark 的 四 大 编程 模型 ， 使 读者 进一步 学 习 并 掌握 


Spark 在 不 同业 务 场 景 下 的 应 | 
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情况 。 


RDD 的 运行 机 制 


第 4 章 Spark 四 大 应 用 技术 框架 


在 前 面 的 3 章 中 已 经 学 习 了 Spark 的 一 些 基 本 操作 ， 在 这 一 章 将 会 接触 到 Spark 为 解决 


系列 问题 而 提出 的 解决 方案 ， 也 就 是 它 的 技术 框架 。Spark 在 现在 的 版 本 
框架 ， 后 续 的 框架 开发 也 是 在 这 四 大 技术 框架 下 进行 的 增补 。 万 变 不 离 其 宗 ， 


四 大 框架 ， 之 后 的 版 本 更 新 也 能 很 快 地 掌握 。 


拥有 四 大 技术 
掌握 了 现在 的 


本 章 要 介绍 的 就 是 Spark SQL、Spark MLlib、Spark Streaming 以 及 Spark GraphX 这 四 大 


技术 框架 ， 这 四 大 框架 是 为 了 解决 不 同 的 问题 而 提出 的 。Spark SQL 的 前 身 是 Shark， 由 于 
Shark 本 身 的 缺陷 ，SparkSQL 抛弃 原 有 的 Shark 代码 ， 汲 取 了 Shark 的 优 


点 重新 开发 。 


MLlib 是 Spark 常用 的 机 器 学 习 算 法 的 实现 库 ， 同 时 包括 相关 的 测试 和 数据 生成 器 。Spark 


Streaming 类 似 于 Apache Storm， 用 于 流 式 数 据 的 处 理 ， 并 具有 高 否 趾 
点 。Spark GraphX 性 能 良好 ， 又 有 丰富 的 功能 和 运算 符 ， 能 在 海量 数据 上 自 


算法 。 下 面 就 开始 学 习 这 四 大 技术 框架 。 
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容错 能 力 强 的 特 


如 运行 复杂 的 图 


Spark SQL 允许 在 Apache Spark 中 使 用 SQL、HiveQL 或 Scala 等 语言 表示 的 关系 型 查询 


语句 ， 其 组 件 的 核心 是 一 种 新 型 的 RDD: SchemaRDD。SchemaRDD 在 Spark 1.3 之 后 改名 
为 DataFrame。DataFrame 由 行 对 象 (Row Objects) 组 成 ， 同 时 还 元 
素数 据 类 型 的 模式 (Schema)。 一 个 DataFrame 类 似 于 传统 关系 型 数据 库 中 的 一 张 表 。 


包含 一 个 描述 每 行 中 列 


DataFrame 可 以 从 现 有 的 RDD、Parquet 文件 、JSON 数据 集 或 者 从 HiveQL 的 结果 数据 中 


创建 。 
4.1.1 Spark SQL 人 门 


使 用 Spark 所 有 相关 功能 的 入 口 是 SQLContext 类 ， 或 者 它 的 子 类 。 


SQLContext 基 类 ， 需 要 首先 创建 SparkContext。 
使 用 Scala 语言 创建 SQLContext 的 代码 片段 如 下 。 


// 已 经 存在 的 SparkContext 
val sc: SparkContext 


val sqlContext = new org.apache.spark.sql.SQLContext(sc) 
隐 式 地 把 RDD 转换 为 DataFrame 
import sqlContext.implicits._ 


~ 


为 了 创建 一 个 


除了 实例 化 SQLContext 类 ， 还 可 以 创建 一 个 HiveContext 对 象 ， 它 提供 了 包含 完整 


完整 的 HiveQL 解析 器 编 


SQLContext 功能 的 一 个 超 集 ， 所 能 额外 提供 的 附加 功能 包括 使 用 


写 查 询 语句 、 访 问 UDF (User Defined Function)、 从 Hive 表 中 读 取 数据 。HiveContext 的 使 
并 不 要 求 已 有 的 Hive 设置 ， 所 有 SQLContext 能 访问 的 数据 源 对 于 HiveContext 都 有 效 。 

打包 ， 以 避免 在 Apache Spark 的 默认 版 本 中 添加 
区 匮 关 系 对 应 用 程序 没有 影响 ，] 
布 版 本 中 使 用 HiveContext。 以 后 的 版 本 将 着 力 使 SQLContext 拥 
用 于 解析 查询 语句 SQL 特定 变 体 (Specific Varient) 也 可 以 选择 使 用 spark.sql.dialect 选 
月 “SET key=value” 命 令 ， 来 改变 
了 由 Spark SQL 提供 的 一 个 
“hiveql” 进 行 查询 等 操作 ,“sql” 也 可 以 使 


Spark SQL 对 HiveContext 进行 了 单独 
对 Hive 的 依赖 。 如 果 这 些 


AAA 


项 。 可 以 利用 SQLContext 


这 个 参数 。 对 于 SQLContext， 唯 一 可 用 的 方言 是 “sql”， 它 采 月 


疝 单 SQL 解析 器 。 对 于 HiveContext， 默 认 使 月 
] 。 由 于 HiveQL 解析 器 更 完整 ， 所 以 建议 大 多 数 情况 下 使 用 

在 Spark 中 ，DataFrame 是 一 利 
二 维 表格 。DataFrame 与 RDD 的 主要 区 别 在 于 ， 前 者 带 


表示 的 二 维 表 数 据 集 的 每 一 列 


息 ， 从 而 对 藏 于 Da 


荐 在 Apache Spark 1.3 的 发 


Ph setConf 方法 或 在 SQL 中 使 月 


有 HiveContext 的 功能 。 


都 带 有 名 称 和 
taFrame 背后 的 数据 源 以 及 作 


“hiveql”。 

Fh 以 RDD 为 基础 的 分 布 式 数据 集 ， 类 似 于 传统 数据 库 中 的 
有 Schema 元 信息 ， 即 DataFrame 所 
这 使 得 Spark SQL 得 以 洞察 更 多 的 结构 信 
] 于 DataFrame 之 上 的 转换 进行 了 针对 性 的 


光 化 ， 最 终 达 到 大 


Spark Core 只 能 在 stage 层面 进 
有 了 SparkContext， 可 以 
创建 并 使 用 DataFrames 结构 化 数据 处 理 包 


【 例 4-1】D 


而 提升 运行 时 效率 上 


的 目标 。 由 于 无 从 得 知 所 存 数 据 元 素 的 具体 内 部 结构 ， 


Pape 
行 间 里 、 


ataFrame 操作 


// 已 经 存在 的 SparkContext 
val sc: SparkContext 


val sqlContext = new org.apache.spark.sql.SQLContext(sc) 


/ 创建 DataFrame 
val df = sqlContext.read.jSon("examples/Src/main/resources/people.json ) 
/ 显示 DataFrame 的 内 容 


df.show() 


//age name 

// null Michael 
/30 Andy 
/ 19 Justin 


/ 以 树 的 形式 打印 模式 
df.printSchema() 


// root 


// |-- age: long (nullable = true) 


// |-- name: string (nullable = true) 
// 只 选择 “name” 这 一 列 
df.select("name").showO 


// name 
// Michael 
// Andy 
// Justin 


/ 选择 每 个 人 ， 但 是 age 值 加 1 
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在 程序 中 根据 数据 源 色 


| 建 DataFrames。 下 面 的 【 例 4-1】 包 括 


df.select(df("name"), df("age") + 1).show() 
// name (age + 1) 

// Michael null 

/Andy 31 

//Justin 20 

/ 选择 年 龄 大 于 21 的 人 
df.filter(df("age") > 21).showO 

// age name 

/30 Andy 

/ 通过 年 龄 计算 人 数 
df.groupBy("age").count().show() 


//age count 


/null 1 
/19 1 
/30 1 


4.1.2 ”数据 源 


Spark SQL 通过 DataFrame 类 提供 的 接口 从 而 实现 对 不 同 数据 源 操作 的 支持 。DataFrame 
既 可 以 像 普 通 RDD 一 样 使 用 ， 也 可 以 被 注册 为 一 张 临时 表 。 将 DataFrame 注册 为 一 张 表 ， 
且 能 在 这 个 表 的 数据 之 上 运行 SQL 查询 ， 那 么 一 个 DataFrame 就 类 似 于 传统 关系 型 数据 库 
中 的 一 张 表 。DataFrame 可 以 从 现 有 的 RDD、Parquet 文件 、JSON 数据 集 或 者 从 HiveQL 的 
结果 数据 中 创建 。 下 面 主要 介绍 将 数据 加 载 到 DataFrame 的 儿 种 方法 。 

1. RDDs 与 DataFrames 的 互 操作 

Spark SQL 提供 两 种 不 同 的 方法 来 将 现 有 的 RDDs 转变 成 DataFrames。 第 一 种 方法 是 使 
反射 机 制 (reflection) 来 推断 包含 特定 类 型 对 象 的 RDD 的 格式 。 这 种 基于 反射 机 制 的 方 
法 使 得 代码 更 简洁 ， 不 过 需要 在 编写 Apache Spark 应 用 之 前 就 知道 RDD 的 格式 。 

Scala 接口 支持 自动 将 含有 样本 类 (Case Classes) 的 RDD 转变 为 DataFrame。 样 本 类 定 
义 了 表 的 Schema。 样 本 类 中 的 参数 名 通过 反射 被 读 取 ， 然 后 转变 为 列 的 名 称 。 样 本 类 也 可 
以 峰 套 或 包含 复杂 类 型 ， 如 序列 或 数组 。 这 种 RDD 可 以 隐 式 转换 为 DataFrame， 然 后 注册 
为 一 张 表 ， 这 张 表 可 以 在 后 续 的 SQL 语句 中 使 用 。 

【 例 4-2】 RDD 与 DataFrame 的 隐 式 转换 。 


ps 


/ sc 是 已 经 存在 的 SparkContext. 

val sqlContext = new org.apache.spark.sql.SQLContext(sc) 

/ 隐 式 地 将 RDD 转换 为 模式 

import sqlContext.implicits._ 

/ 使 用 case 类 来 注册 模式 

/ 注意 : 在 Scala2.10 中 case 类 可 比 支 持 22 个 字段 ， 为 了 打破 这 个 限制 ， 可 以 使 用 自 定义 类 来 实 
// 现 Product 接 
case class Person(name: String, age: Int) 

1/ 创建 Person 对 象 的 RDD， 然 后 将 其 注册 为 表 

val people = sc.textFile("examples/src/main/resources/people.txt").map(_.split(",")).map(p => 
Person(p(0), p(1).trim.toInt)).toDF() 
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people.registerTempTable("people") 

// 可 以 使 用 sqlContext 提供 的 sql 方法 来 运行 SQL 语句 

val teenagers = SqlContext.sql("SELECT name, age FROM people WHERE age >= 13 AND age <= 19") 
/SQL 查询 的 结果 是 DataFrame， 支 持 所 有 常规 的 RDD 操作 结果 中 某 行 的 列 可 以 通过 列 索 引 查 到 
teenagers.map(t => "Name: "+t(0)).collectO.foreach(println) 

/ 或 者 通过 字段 名 

teenagers.map(t => "Name: "+tgetAs[String](mame'")).collect(O.foreach(println) 

// row.getValues Map[T] 方 法 一 次 返回 多 个 列 ， 把 列 内 容 放 入 Map[String 了 中 


teenagers.map(_.getValuesMap[Any](List("name", "age"))).collect().foreach(println) 


创建 DataFrames 的 第 二 种 方法 是 通过 一 个 编程 接口 ， 允 许 构 建 一 种 格式 ， 然 后 将 其 应 
用 到 现 有 的 RDD。 虽 然 这 种 方法 比较 烦琐 ， 但 可 以 在 不 知道 RDD 的 列 和 它们 的 类 型 时 构建 
DataFrames 。 

当 样 本 类 不 能 提前 确定 时 《例如 当 记 录 的 结构 由 字符 串 或 文本 数据 集 编 码 而 成 ， 它 在 解 
析 时 ， 字 段 将 会 对 不 同 的 用 户 有 不 同 的 投影 结果 )，DataFrame 可 以 由 以 下 3 个 步骤 创建 。 

1) 从 原始 RDD 创建 一 个 含有 Rows 的 RDD。 

2) 创建 一 个 由 StructType 表示 的 模式 ， 它 与 第 1) 步 中 创建 的 RDD 的 Row 结构 相 
一 玫 。 

3) 通过 调用 SQLContext 中 createDataFrame 方法 ， 将 模式 应 用 到 含有 Rows 的 RDD。 

【 例 4-3】 RDD 与 DataFrame 的 编程 接口 转换 。 


I 


Ud 


/sc 是 已 经 存在 的 SparkContext. 
val sqlContext = new org.apache.spark.sql.SQLContext(sc) 
/ 创建 RDD 
val people = sc.textFile("examples/src/main/resources/people.txt") 
/ 模式 编码 为 字符 串 
val schemaString = "name age" 
// 导入 Row. 
import org.apache.spark.sgl.Row; 
// 导入 Spark SQL 数据 类 型 
import org.apache.spark.sql.types.{ StructType,StructField, StringType}; 
// 基于 模式 字符 串 来 生成 模式 
val Schema = 

StructType( 

schemaString.split(" ").map(fieldName => StructField(fieldName, StringType, true))) 

/ 将 名 为 People 的 RDD 记录 转化 为 行 
val rowRDD = people.map(_.split(",")).map(p => Row(p(0), p(1).trim)) 
/ 把 模式 应 用 于 RDD 
val peopleDataFrame = sqlContext.createDataFrame(rowRDD, schema) 
/ 把 DataFrames 注册 为 表 
peopleDataFrame.registerTempTable("people") 
// 使 用 sqlConText 的 sql 方法 能 执行 SQL 表达 式 
val results = sqlContext.sql("SELECT name FROM people") 
/SQL 查询 的 结果 是 DataFrame， 支 持 所 有 常规 的 RDD 操作 结果 中 某 行 的 列 可 以 通过 列 索引 查 至 
results.map(t => "Name: " + t(0)).collect().foreach(println) 


A 
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2. Parquet 文件 


Parquet 文件 是 一 种 列 式 存储 格式 的 文件 ， 被 和 


多 数据 处 理 系统 文 持 。 下 面 将 会 展示 


Spark SQL 如 何 文 持 读 取 和 写 入 Parquet 文件 ， 并 实现 可 自动 保留 原始 数据 格式 的 功能 。 
(1) 以 编程 方式 加 载 数据 
如 【 例 4-4】 所 示 ， 主 要 介绍 了 如 何 将 RDD 数据 集 转换 为 DataFrame 格式 ， 以 便 文 持 
SQL 查询 。 


【 例 4-4】 


/ 前 面 例子 中 的 sqlContext 将 在 本 例子 中 继 缚 


以 编程 方式 加 载 数据 。 


// 隐 式 将 RDD 转换 为 DataFrame 


import sqlContext.implicits._ 


val people: RDD[Person] =.…// 前 面 例子 中 
/RDD 被 隐 式 地 转换 为 DataFrame， 从 而 允许 它 使 用 


people.write.parquet("people.parquet ) 


/ 读 取 上 面 创 建 的 Parquet 文件 ， 


/ 加 载 的 Parquet 文件 也 是 DataFrame 


‘Me 
a 
{和 L 


的 case 类 对 象 的 RDD 


Parquet 


自 描 


Parquet 文件 是 


val parquetFile = sqlContext.read.parquet("people.parquet") 


//Parquet 文件 也 可 以 被 注册 为 表 并 使 ) 


到 SQL 语句 中 


parquetFile.registerTempTable("parquetFile") 
val teenagers = sqlContext.sql("SELECT name FROM parquetFile WHERE age >= 13 AND age <= 19") 
teenagers.map(t => "Name: " + t(0)).collect().foreach(printlin) 


述 的 ， 所 以 模式 被 保存 下 来 


(2) 配置 
可 以 用 SQLContext 中 setConf 方法 或 使 用 SQL 运行 “SET key=value ”命令 ， 来 完成 
Parquet 配置 。Parquet 配置 属性 如 表 4-1 所 示 。 
表 4-1 Parquet 配置 属性 表 
属性 名 称 默 认 值 描 述 
一 些 Parquet 处 理 系统 ， 特 别 是 Inpala 和 老 版 本 的 Spark SQL， 当 写 出 
spark.sql.parquet.binaryAsString false Parquet 模式 时 ， 它 们 并 不 区 分 三 进 制 数据 或 字符 串 数据 。 这 个 属性 告诉 
Spark SQL 将 二 进 制 数据 解释 为 字符 串 型 ， 以 提供 与 其 他 系统 的 兼容 性 
一 些 Parquet-producing 系统 ， 特 别 是 Inpala 会 将 时 间 惟 存储 为 INT9%6 类 
el eel OC A en 让 型 。Spark 也 会 存储 时 间 惟 为 INT96， 因 为 需要 避免 精度 损失 。 通 过 这 个 配 
人 置 可 以 使 Spark SQL 以 INT96 类 型 存储 一 个 时 间 鹤 ， 从 而 提供 与 这 些 系统 
的 兼容 性 
spark.sql.parquet.cacheMetadata true 启动 Parquet 格式 元 数据 缓存 ， 加 速 静态 数据 查询 
es 上 写 Parquet 文件 时 ， 设 置 压缩 编码 的 值 。 可 用 的 值 包括 uncompressed、 
spark.sql.parquet.compression.codec gzip non ap ls 
打开 Parquet 过 滤器 熙 加 优化 。 这 个 功能 默认 是 关闭 的 ， 因 为 在 
spark.sql.parquet.filterPushdown false Parquet 1.6.0rc3(PARQUET- 136) 中 有 一 个 已 知 的 缺陷 。 然 而 ， 如 果 表 不 包 
含 任何 可 空 字符 串 或 二 进 制 列 ， 启 用 这 个 特性 仍然 是 安全 的 
yr 将 态 放 , 专 传 ; < 筷 内 虹 也 
spark.sql.hive.convertMetastoreParquet true Wg false，Spark SQL 将 为 parquet 表 使 用 Hive SerDe， 而 不 是 内 置 的 
(3) 分 区 发 现 
表 分 区 在 系统 中 是 一 种 常见 的 优化 方法 ， 比 如 在 Hive 数据 仓库 中 就 有 所 应 用 。 在 一 个 
分 区 表 中 ， 数 据 通常 存储 在 不 同 的 目录 中 ， 分 区 列 值 编 码 在 每 个 分 区 目录 的 路 径 中 。Parquet 
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数据 源 能 够 自动 发 现 和 推断 分 区 信息 。 例 如 ， 可 以 将 以 前 使 用 的 人 口 数据 存储 到 一 个 分 区 表 
中 ， 在 分 区 表 中 可 以 使 用 如 【 例 4-5】 所 示 的 目录 结构 ， 性 别 和 国家 作为 分 区 列 。 
【 例 4-5】 目录 结构 


Ltable 
| 一 gender=male 


| 一 country=US 
| gata.parquet 


上 一 country=CN 
|- 一 data.parquet 


[一 gender=female 


| 一 country=US 
| Lgata.parquet 
上 一 country=CN 


| gata.parquet 
上 -一 0 


在 Spark SQL 中 使 用 SQLContext.read.load 或 者 SQLContextread.parquet 方法 将 自动 从 路 
分 区 path/to/table 中 提取 信息 。【 例 4-5】 中 的 信息 就 可 以 被 自动 提取 为 DataFrame 数据 类 
， 上 有 具体 表现 如 下 。 


由 


由 


4 六 


上 


root 

|-- name: string (nullable = true) 
|-- age: long (nullable = true) 

|-- gender: string (nullable = true) 
|-- country: string (nullable = true) 


值得 注意 的 是 ， 分 区 的 列 的 数据 类 型 是 自动 推 新 的 ， 目 前 为 止 ， 仅 文 持 数字 数据 类 型 和 
字符 串 类 型 。 
(4) 模式 合并 
像 ProtocolBuffer、Avro、Thrift、Parquet 数据 源 都 支持 模式 演化 。 用 户 可 以 从 一 个 简单 
的 模式 开始 ， 逐 步 添加 更 多 的 列 的 模式 。 通 过 这 种 方式 ， 用 户 可 能 得 到 一 个 来 自 多 个 不 同 
Parquet 文件 但 最 终 都 相互 兼容 的 模式 。Parquet 数据 源 能 够 自动 检测 这 种 情况 下 的 这 些 文件 
并 且 将 模式 合并 ， 有 具体 见 【 例 4-6】。 
【 例 4-6】 模式 合并 
/ 前 面 例子 中 的 sqlContext 将 在 本 例 中 继续 使 用 
// 隐 式 将 RDD 转换 为 DataFrame 


import sqlContext.implicits._ 


78 


利 月 


// 创建 一 个 简单 的 DataFrame， 把 它 存 入 分 区 目录 

val dfl = sc.makeRDD(1 to 5).mapQ => (1,1* 2)).toDF("single", "double") 
df1.write.parquet("data/test_table/key=1") 

/ 在 新 分 区 目录 创建 另外 一 个 DataFrame 

val df2 = sc.makeRDD(6 to 10).mapQ => (ix 3)).toDF("single", "triple") 
df2.write.parquet("data/test_table/key=2") 

/ 读 取 分 区 后 的 表 

val df3 = sqlContext.read.parquet("data/test_table") 


df3.printSchema() 
/ 模式 包含 了 列 ， 分 区 列 出 现在 分 区 目录 路 径 
// root 


// |-- single: int (nullable = true) 
// |-- double: int (nullable = true) 
// |-- triple: int (nullable = true) 
// |-- key : int (nullable = true) 


3. JSON 数据 集 
Spark SQL 可 以 目 动 推断 出 一 个 JSON 数据 集 的 结构 ， 并 将 
日 SQLContext 提供 的 SQLContext.read.json0 方 法 来 将 JSON 文件 或 者 字符 品类 型 的 RDD 
转换 为 DataFrame。 
需要 注意 的 是 这 里 的 JSON 文件 不 是 一 般 意义 的 JSON 文件 ， 在 这 个 JSON 文件 中 每 一 


I 


加 载 为 DataFrame。 可 以 


行 必须 包括 独立 的 、 有 效 的 JSON 对 象 ， 因 此 常规 的 多 行 JSON 文件 通常 会 加 载 失 败 。 


【 例 4-7】 加 载 JSON 数据 集 。 


pa 


/sc 是 已 经 存在 的 SparkContext. 

val sqlContext = new org.apache.spark.sql.SQLContext(sc) 
/JSON 数据 集 通 过 路 径 来 标定 位 置 
/ 路 径 可 以 是 一 个 文本 文件 或 者 一 个 包含 文件 的 目录 


val path = "examples/src/main/resources/people.json" 


val people = sqlContext.read.json(path) 
/ 推测 出 来 的 模式 可 以 通过 printSchema() 方 法 来 查看 
people.printSchema() 


// root 

// |-- age: integer (nullable = true) 

// |-- name: string (nullable = true) 

// 将 DataFrame 注册 成 表 

people.registerTempTable("people") 

// SQL statements can be run by using the sql methods provided by sqlContext. 

val teenagers = SqlContext.sql("SELECT name FROM people WHERE age >= 13 AND age <= 19") 

/ 此 外 ，DataFrame 还 可 以 通过 RDD 中 的 JSON 对 象 来 创建 

val anotherPeopleRDD = sc.parallelize( 
"""{"name":"Yin","address":{"city":"Columbus", "state":"Ohio"}}""" :: Ni]l) 


val anotherPeople = sqlContext.read.json(anotherPeopleRDD) 


4. Hive 表 
Spark SQL 还 支持 读 取 和 写 入 存储 在 Apache Hive 中 的 数据 。 然 而 ， 由 于 Hive 有 大 量 的 


依赖 关系 ， 它 并 不 包括 在 默认 的 Apache Spark 组 件 中 。 为 了 使 ) 
时 候 加 入 “-Phi 


] Hive， 必 须 在 构建 Spark 的 


ve” 和 “-Phive-thriftserver”， 这 个 命令 构建 了 一 个 包含 Hive 日 


的 序列 化 和 反 序 列 化 库 


| Hive 的 集成 Jar 包 必 须 存 在 于 所 有 的 工作 节点 上 ， 因 
， 以 访问 到 存储 在 Hive 中 的 数据 。 


将 hive-site.xml 文件 放 到 conf 目录 下 ， 以 完成 Hive 的 配置 。 


当 运 行 Hive 时 ， 必 须 构 造 一 个 HiveContext， 它 继承 于 SQLContext， 并 


MetaStore 中 查 


Hive 部 署 ? 


在 当前 目录 中 他 
【 例 4-8】 


仍然 可 以 创建 一 个 HiveContext。 当 不 使 


询 表 的 支持 ， 以 及 使 月 


| 建 metastore_db 和 warehouse。 示 例 代 码 如 【 例 4-8】 所 示 。 
使 用 Hive。 


val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc) 
sqlContext.sql("CREATE TABLE IF NOT EXISTS src (key INT value STRING)") 
sglContext.sgl("LOAD DATA LOCAL INPATH ‘examples/src/main/resources/kv1.txt' INTO TABLE src") 
// HiveQL 语法 的 查询 语句 

sqlContext.sql("FROM src SELECT key, value").collect().foreach(println) 


新 的 集成 Jar 


为 它们 需要 访问 Hive 


增加 了 对 在 


日 HiveQL 编写 查询 语句 的 文 持 。 即 使 没有 一 个 现存 的 
hive-site.xml 的 配置 时 ， 上 下 文 自动 


Spark SQL 可 以 直接 与 Hive 进行 交互 ， 使 Spark SQL 可 以 访问 元 数据 表 。 从 Sparkl.4 
始 ， 使 用 二 进 制 编译 的 Spark SQL 可 以 使 用 SQL 查询 不 同 版 本 的 Hive 表 ， 在 使 用 之 前 还 需 
要 进行 一 些 配置 ， 配 置 表 如 表 4-2 所 示 。 
表 4-2 配置 表 
属性 名 称 默 认 意 义 
Do mare 0.13.1 Hive 元 数据 存储 的 版 本 ， 现 在 支持 0.12.0 和 0.13.0， 后 续 会 有 更 多 的 支持 
来 实例 化 HiveMetastoreClient 对 象 的 Jars 包 的 位 置 。 这 个 属性 有 3 个 选 
a 项 : 1) builtin， 当 使 用 Hive 0.13.0 并 且 “-Phive” 被 使 用 时 会 启用 这 个 选项 ， 
0 builtin 当 这 个 选项 被 启用 时 ，spark.sql.hive.metastore.version 的 值 必须 是 0.13.0 或 者 
3 是 未 定义 ; 2) maven， 从 Maven 下 载 Hive 的 指定 版 本 的 Jar 包 时 ; 3) Hive 
和 Hadoop 的 标准 格式 的 类 路 径 
0 CD 一 个 逗号 分 隔 的 类 前 缓 列表， 这 些 类 前 级 使 用 被 Spark SQL 和 一 个 特定 版 
spark.sql.hive.metastore Oro 本 的 Hive 共享 的 类 加 载 器 。 一 个 共享 类 的 例子 就 是 JDBC 驱动 器 需要 和 元 数 
sharedPrefixes | “ve ”| 据 进行 交流 。 另 一 个 类 的 例子 就 是 需要 共享 的 是 那些 已 经 共享 的 类 ， 比 如 ， 
oraclejdbc 使 用 log4i 的 自 定 义 输出 源 
spark.sql.hive.metastore CE 一 个 逗号 分 隅 的 类 前 级 列表 ， 应 该 明确 地 指示 Spark SQL 连接 的 是 哪 一 个 
.barrierPrefixes py 版 本 的 Hive 需要 被 装载 。 例 如 ，Hive udf 声明 的 前 级 通常 会 被 分 享 
5. 其 他 数据 库 
Spark SQL 提供 了 JDBC 以 连接 其 他 数据 库 读 取 数 据 ， 这 个 功能 优 于 使 用 jdbcRDD 获取 
数据 。JDBC 连接 数据 库 获 取 的 数据 是 以 DataFrame 的 类 型 作为 返回 值 ， 这 样 数 据 就 能 够 很 
方便 地 被 Spark SQL 进行 处 理 并 能 够 很 好 地 与 其 他 数据 源 的 数据 结合 。 需 要 说 明 的 是 这 里 的 


JDBC 不 同 于 使 程序 执行 Spark SQL 的 查询 的 Spark SQLJDBC Server。 


使 用 JDBC 来 连接 数据 库 ， 首 先 需 要 一 个 特定 的 JDBC 驱动 类 ， 比 如 


\ 证 


通 


过 


接 Postgres 数据 库 ， 需 要 执行 下 面 的 操作 。 
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Spark Shell 连 


SPARK_CLASSPATH=postgresql-9.3-1102-jdbc41.jar bin/spark-shell 


远程 数据 库 中 的 数据 表 可 以 使 用 数据 源 API 加 载 为 DataFrame 或 者 Spark SQL 的 临时 表 
的 形式 ， 在 加 载 过 程 中 支 持 的 选项 如 表 4-3 所 示 。 


表 4-3 JDBC 加 载 属性 表 


属 性 意 义 
url JDBC 连接 的 地 址 
dbtable JDBC 应 该 被 读 的 表 
i ver JDBC 驱动 程序 的 类 名 必须 连接 到 该 URL。 在 操作 数据 库 并 发 送 命令 之 前 必须 先 加 载 次 数据 
库 驱 动 
ot 必须 指定 其 中 的 一 个 选项 ， 它 们 描述 了 如 何 划 分 来 自 多 个 并 行 节点 的 表 。partitionColumn 必 
pberBound Tt Battitiaiis, 须 是 来 自 一 个 表 的 数字 列 。 注 意 ，lowerBound 和 upperBound 只 是 用 于 决定 分 区 ,不 是 为 了 过 滤 
2 表 中 的 行 ， 因 此 表 中 的 所 有 行将 分 区 并 返 匠 


下 面 的 代码 片段 给 出 了 具体 的 JDBC 连接 语句 。 


val JdbcDF = sqlContext.load("jdbc", Map( 
"url" -> "jdbc:postgresql:dbserver", 


"dbtable" -> "schema.tablename")) 


4.1.3 性 能 调 优 

对 于 某 些 工作 负荷 ， 可 以 通过 将 数据 缓存 到 内 存 中 ， 或 改变 一 些 实验 参 数 ， 来 改善 
Spark SQL 性 能 。 

1. 数据 缓存 

Spark SQL 通过 调用 cacheTable("tableName") 函 数 ， 以 内 存 列 存储 的 格式 缓存 表 ， 之 
后 ，Spark SQL 将 只 扫描 所 需 的 列 ， 并 会 自动 调整 压缩 以 减少 内 存 使 用 量 和 GC 的 压力 也 可 
以 调用 uncacheTable("tableName) 函 数 ， 将 表 从 内 存 中 删除 。 需 要 注意 的 是 ， 如 果 调 用 
cache， 而 不 是 cacheTable， 表 将 不 以 内 存 列 存储 的 格式 进行 缓存 。 
还 可 以 调用 SQLContext 中 的 setConf 方法 ， 或 使 用 SQL 运行 “SET key = value” 命 
令 ， 来 完成 内 存 缓存 的 配置 ， 配 置 属性 如 表 4-4 所 示 。 


得 


EA 


表 4-4 缓存 配置 表 


属性 名 称 默认 值 描 述 
当 设 置 为 true 时 ，Spark SQL 会 根据 数据 的 统计 ， 自 动 选择 
压缩 编码 


空 制 列 绥 存 时 的 batchSize， 较 大 的 batchSize 可 提高 内 存 的 
利用 率 和 压缩 ， 但 当 缓 存 数据 时 ， 都 增加 了 内 存 泄露 的 风险 


spark.sgl.inMemoryColumnarStorage.compressed false 


spark.sgl.inMemoryColumnarStorage.batchSize 1000 


2. 其 他 配置 
下 列 选项 也 可 以 用 来 调整 查询 执行 的 性 能 。 这 些 选项 可 能 会 在 将 来 的 版 本 中 被 弃 | 
为 很 多 的 优化 都 将 自动 执行 ， 配 置 选 项 如 表 4-5 所 示 。 
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属性 名 黎 


表 4-5 其 他 配置 选项 


默 认 值 描 ” 述 


spark.sgql.autoBroadcastJoinThreshold 


在 执行 join 操作 时 ， 配 置 一 张 表 将 被 广播 到 所 有 工作 节点 的 


字 节 数 。 设 置 这 个 值 为 -1， 则 表 是 不 能 被 广播 出 去 的 。 


10485760 (10MB) 


意 的 是 ， 


前 的 数据 统计 
云 行 命令 “ANALYZE 
STATISTICS noscan” 


只 支持 Hive Metastore 表 ， 
TABLE <tableName> COMPUTE 


spark.sgl.codegen 


spark.sql.shuffle.partitions 


false 生成 。 


计生 下 


Ey 分 区 | 


置 所 


如 果 为 true， 在 特定 查询 的 表达 式 求 值 中 ， 代 码 将 
对 于 一 些 复杂 表达 式 
|。 但 是 ， 对 于 简单 的 查询 ， 这 实际 上 


的 数量 


居 的 Shuffle (如 join、aggregation ) 操作 时 ， 


会 被 动态 
的 查询 ， 此 选项 可 以 得 到 显著 的 速 
会 减缓 查询 的 执行 
配 


spark.sgl.planner.externalSort 


4.1.4 分布 式 SQL 引擎 


Spark SQL 也 可 以 作为 分 布 式 查询 3 


false 


如 果 值 为 真 时 ， 根 据 需 要 执行 排序 溢 


擎 使 


et 


持 直接 运行 SQL 查询 的 接 
1. 运行 Thrift JDBC 
Thrift JDBC Server 使 | 


Hive 0.12 版 本 的 beeline 


“ /sbin/start - thriftserver.sh”， 以 运行 JDBC Server， 
的 服务 器 。 
Thrift JDBC Server 默认 监听 端口 是 


分 区 在 内 存 中 


出 到 磁盘 上 ， 否 则 每 个 


| JDBC/ODBC 或 命令 行 界面 。Spark SQL 还 文 
， 而 不 需要 编写 任何 代码 ， 以 下 为 两 个 分 布 式 SQL 查 
Server 
的 是 Hive 0.12 的 HiveServer2 来 实现 的 ， 


询 工具 。 


能 够 使 ) 


了 Spark 或 者 


却 本 与 JDBC Server 进行 交互 。 士 


这 样 就 构建 了 一 个 可 以 提供 数据 进行 交互 


是 10000。 通 过 设置 HIVE_SERVER2_THRIFT PORT 


和 HIVE_ SERVER2_THRIFT_ BIND_HOST 环境 变量 的 值 ， 可 以 自 定义 主机 名 和 端口 号 。 运 


行 命令 “./sbin/start-thriftserver.sh-help”， 可 以 获得 所 有 参数 的 完整 用 
Server 之 后 ， 就 可 以 在 beeline 客户 端 上 通过 


了 。 测 试 过 程 中 ， 
在 beeline 中 连 
连接 上 Beeline 之 后 ， 
入 用 户 名 。 


只 


Hive 中 自 带 的 beeline 脚本 。 
2. 运行 Spark SQL CLI 


在 安全 模式 下 ， 请 参 


会 要 求 输入 


户 名 和 密码 。 在 非 安全 模式 下 ， 密 码 为 空 ， 只 需 输 
考 beeline 文档 的 说 明 进 行 操作 。 
只 需要 将 hive -site.xml 文件 放 在 conf 目录 下 ， 即 可 完成 Hive 的 配置 ， 


Spark SQL CLI 是 一 个 便捷 的 工具 ， 


令 行 
下 ， 执 行 命令 “ 


的 完整 列表 说 明 。 


./bin/spark-sql ”， 
conf 目录 下 ， 即 可 完成 Hive 的 配置 


4.1.S Shark 迁移 至 Spark SQL 指南 


Spark 
台 的 用 户 ， 需 要 注 
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是 一 个 活跃 的 项 目 ， 更 新 的 速度 也 入 
FE 意 以 下 内 容 。 


快 ， 


列表 说 明 。 设 置 好 JDBC 


二 命令 “./bin/beeline ”测试 Thrift JDBC Server 
需要 使 用 命令 “beeline> !connect jdbc:hive2://localhost:10000”， 这 样 
车 接 到 JDBC Server 了 。 


就 能 


也 可 以 使 用 


它 以 本 地 模式 运行 Hive Metastore 服务 ， 执 行 从 命 
输入 的 查询 语句 。 但 Spark SQL CLI 不 能 与 Thrift JDBC Server 交互 。 在 Spark 目录 
即 可 运行 Spark SQL CLI。 只 需要 将 hive-site.xml 文件 


放 在 


， 也 可 以 运行 命令 “./bin/spark-sql--help”， 获得 所 有 参数 


对 于 一 些 从 Shark 迁移 到 Spark SQL 平 


会 话 设置 一 个 公平 调度 池 。 所 有 


tasks， 而 Spark SQL 不 ) 
可 以 在 


相反 ， 这 日 


存 。 


tbl, 


J 


(1) 


] 户 可 以 通过 设置 


变量 spark.sql.thriftserver.scheduler.pool 的 值 ， 为 一 次 JDBC 客户 端 
指令 为 “SET spark.sql.thriftserver.scheduler.pool] =accounting ”。 


(2) 在 Shark 中 ， 默 认 的 reducer 数量 为 1， 设 置 reducer 数量 的 属性 为 mapred.reduce. 


这 个 属性 ，] 
hive-site.xml 中 设置 这 个 属性 ， 
仍然 可 被 识别 ， 但 会 


昌 需 要 重 写 默认 的 


自动 转变 为 spark.sql.shuffle.partitions 


(3) Shark 中 的 表 属 怕 


示例 代码 如 下 。 


CACHE TABLE logs 


E shark.cache 被 删除 了 ， 以 “_cache” 结 
提供 了 CACHE TABLE 和 UNCACHE TABLE 操作 ， 让 月 


_ last_ month; 


UNCACHE TABLE logs_last_month:; 


的 是 spark.sql.shuffle.partitions， 其 默认 值 为 200。 也 
属性 值 。 目 前 ，mapred.reduce.tasks 
必 性 。 


尾 的 表 也 不 再 


自动 缓存 。 
昌 户 显 式 地 控制 表 的 组 


需要 注意 ， 与 缓存 RDD 一 样 ，CACHE TABLE tbl 是 惰性 操作 。 这 个 命令 仅仅 是 标记 了 


以 确保 当 被 计算 的 时 候 ， 表 的 分 区 被 缓存 到 内 存 中 了 。 
行 的 时 候 ， 这 张 表 才 会 被 真正 缓存 。 从 Spark 1.2 之 后 ，Spark SQL 新 引入 创建 表 的 声明 ， 


中 使 用 户 控 制 表 是 否 缓 存 的 语句 如 下 。 
CACHE [LAZY] TABLE [AS SELECT].... 


需要 注意 的 是 ， 以 下 的 3 个 缓存 相关 功能 还 未 实现 。 


1) RDD 重 载 。 
2) 内 存 级 的 缓存 写 操 
3) 用 户 自 定 义 分 区 中 


4.1.6 Hive 的 兼容 性 


装 的 Hive 六 


Spark SQL 与 Hive MetaStore、SerDes 和 UDFs 相 章 
0.12.0 和 Hive 0.13.1。Spark SQL Thrift JDBC Server 设计 J] 
容 ， 即 不 需要 修改 现 有 的 Hive MetaStore 或 改变 数据 位 置 、 


作 。 
的 缓存 回收 策略 。 


攻 容 。 目 月 


Spark SQL 支持 Hive 如 下 的 大 部 分 功能 。 


(1) Hive 查询 语句 
@ SELECT。 

@ GROUP BY。 

@ ORDER BY。 

@ CLUSTER BY 。 
@ SORIT BY。 


(2) Hive 的 所 有 操作 符 


关系 操作 (=， 人 ， 
@ 和 镜 
e 逻辑 操作 
e 复杂 类 型 构造 器 。 


= =，<>，<，>，>=，<= 等 )。 


数 操作 〈+，-，*，/，%% 等 )。 
(AND，&&，OR，| 等 )。 


7. 
|L 术 


只 有 当 涉 及 这 张 表 的 查询 语句 执 


革 


ZN 


了，Spark SQL 基于 Hive 


用 “天 


F 箱 即 ) 
表 的 分 区 等 。 


分 


人 
Eh » 


与 


和 ”的 到 


己 安 
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@ 数学 函数 〈sign，In，cos 等 )。 

@ 字符 串 函 数 (instr，length，printf 等 )。 

(3) 用 户 自 定义 函数 

(4) 用 户 自 定义 聚集 函数 

(5) 用 户 自 定义 序列 化 格式 

(6) 连接 操作 

@ JOIN。 

® {LEFTIRIGHTIFULLJOUTER JOIN 。 

@ LEFT SEMIJOIN。 

@ CROSS JOIN 。 

(7) 联合 操作 

(8) 子 查 询 

(9) 采样 操作 

(10) 解释 操作 

(11) 分 区 表 

(12) 视图 

(13) 所 有 的 Hive DLL 函数 

@ CREATE TABLE。 

@ CREATE TABLE AS SELECT。 

@ ALIER TABLE。 

(14) 大 多 数 Hive 数据 类 型 

@ TINYINT。 

@ CMALLINT。 

INT。 

BIGINT。 

BOOLEAN。 

FLOAT。 

DOUBLE 。 

STRING。 

BINARY 。 

TIMESTAMP。 

ARRAY<>。 

MAP<>。 

STRUCT<>。 

下 面 列 出 了 不 支持 的 Hive 功能 ， 这 些 功能 很 少 会 在 Hive 部 署 的 过 程 中 使 用 。 

(1) 主要 的 Hive 功能 

@ 有 buckets 的 表 : bucket 是 Hive 表 分 区 中 的 哈 希 分 区 。Spark SQL 目前 不 支持 
buckets 表 。 


(2) 复杂 Hive 功能 

@ UNION 类 型 。 

@ Unique join。 

@ 列 统 计 信 息 收 集 : Spark SQL 不 扫描 并 收集 列 的 统计 信息 ， 仅 文 持 填充 Hive 
MetaStore 的 sizeInBytes 值 。 

(3) Hive 输入 /输出 格式 

@ 输出 到 客户 端的 文件 格式 : Spark SQL 只 支持 TextOutputFormat 格式 。 

@ Hadoop archive。 

(4) Hive 优化 

@ 块 级 位 图 索引 和 虚拟 列 〈 用 于 建立 索引 )。 

@ 日 动 将 join 操作 转变 为 map join 操作 : 当 一 个 大 表 与 多 个 小 表 进 行 join 操作 时 ，Hive 
会 自动 将 join 操作 转变 为 map join 操作 ， 在 下 个 版 本 中 会 加 入 这 种 自动 转换 机 制 。 

@ 对 于 join 操作 和 groupby 操作 ，Hive 会 自动 决定 reducer 的 数量 : 目前 在 Spark SQL 
中 ， 需 要 使 用 命令 “SET spark.sql.shuffle.partitions=[num_tasks]” 来 控制 post-shuffle 
操作 的 并 行 度 。 

@ 元 数据 可 供 查 询 : Hive 可 以 通过 只 使 用 元 数据 来 返回 查询 的 结果 ,但 Spark SQL 仍 

然 会 启动 任务 来 计算 结果 。 

@ 偏 斜 数据 标志 : Spark SQL 并 不 遵循 Hive 中 的 偏 糙 数据 标志 。 

@ STREAMTABLE hint in join: Spark SQL 不 遵循 STREAMTABLE 的 提示 。 

@ 将 查询 得 到 的 多 个 小 文件 合并 : 如 果 结 果 输 出 中 包含 很 多 小 文件 ，Hive 能 够 选择 性 
地 将 这 些小 文件 合并 成 几 个 大 文件 ， 这 样 可 以 避免 HDFS 中 元 数据 的 溢出 ， 但 Spark 
SQL 并 不 文 持 此 操作 。 


4.1.7 Spark SQL 数据 类 型 


Spark SQL 和 DataFrames 文 持 下 面 的 数据 类 型 ， 基 本 涵盖 了 所 必须 的 数据 类 型 。 
(1) 值 类 型 

@ ByteType: 用 1 个 字 节 表示 整数 值 。 

@ ShortType: 用 2 个 字 节 表示 整数 值 。 
@ IntegerType: 用 4 个 字 节 表示 整数 值 。 
@ LongType: 用 8 个 字 节 表示 整数 值 。 
@ FloatType: 用 4 个 字 节 表示 单 精度 浮 点 数 。 
@ DoubleType: 用 8 个 字 节 表示 双 精 度 浮 点 数 。 
(2) 字符 串 类 型 

@ StringType: 表示 字符 串 值 。 

(3) 二 进 制 类 型 
(4) BinaryType: 表示 二 进 制 值 。 
(5) 布尔 类 型 
@ BooleanType: 表示 布尔 值 。 
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(6) 日 期 类 型 
@ TimestampType: 
(7) 复杂 类 型 


@ ArrayType(elementIType，containsNulD : 
。containsNull 表示 ArrayType 中 的 元 素 是 否 可 为 空 值 。 
valueContainsNull): 


值 
@ M 
由 


keyType 决定 ， 值 


valueContainsNull 表示 value 值 是 


@ StructType(fields): 


@ se dataType, nullable): 


了 这 


表示 包括 年 、 


apType(keyType, valueType, 


的 类 


日 、 小 时 、 


分 钟 和 大 


少 的 值 。 


时 型 由 valueType 决定 。MapType 

征 是 否 可 以 为 空 

表示 一 系列 结构 为 StructFields (fields) 的 值 。 

表示 StructType 中 的 一 个 字段 。 

字段 的 名 称 ， 参 数 dataType 定义 了 这 个 字段 的 数据 类 型 ，nullable 表示 这 个 字 
机 的 人 是 否 可 以 为 空 。 

Spark SQL 中 所 有 的 数据 类 型 都 位 于 包 org.apache.spark.sql : 


Bj 


o 


表 4-6 数据 类 型 表 


表示 一 系列 数据 类 型 为 elementType 的 元 素 


表示 一 组 键 值 对 的 值 。 键 的 类 型 
类 型 中 ， 键 值 不 能 为 空 。 


， 如 表 4-6 所 示 


参数 name 定义 


o 


数据 类 型 在 Scala 中 的 值 类 型 使 用 或 创建 数据 类 型 的 API 
ByteType Byte ByteType 
ShortType Short ShortType 
IntegerType Int IntegerType 
LongType Long LongType 
FloatType Float FloatType 
DoubleType Double DoubleType 
DecimalType scala.math.sql.BigDecimal DecimalType 
StringType String StringType 
BinaryType Array[Byte] BinaryType 
BooleanType Boolean BooleanType 
TimestampType java.Sql.Timestamp TimestampType 
_ Wy ArrayType(elementType, [containsNull]) 
ArrayType scala.collection.Seq 注意 : containsNull 默认 值 为 false 
MapTypetkoyType, valueType,[valueContains 
MapType scala.collection.Map Null]) 
注意 : valueContainsNull 默认 值 true 
StructType(fields) 
StructType org.apache.spark.sql.Row 注意 : fields 表示 一 系列 类 型 为 StructFiel 的 
参数 。 因 此 ，filelds 不 允许 有 重 名 
Scala 中 的 值 类 型 就 是 这 个 字段 的 数据 类 型 。 
StructField (例如 ，Int 型 StructField 的 数据 类 型 即 为 StructField(name,dataType,nullable) 
IntegerType ) 


4.2 Spark Streaming 
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随 着 大 数据 的 发 展 


人 们 对 大 数据 的 处 型 


越 高 ， 原 有 的 批 处 理 


MapReduce 适合 离线 计算 ， 用 户 行为 


分 析 等 。 Spark Streaming 是 建立 在 Spark 上 的 实时 计算 框架 ， 


过 它 提供 的 丰富 的 API 


以 及 基于 内 存 的 高 速 执行 引擎 


~ 
Nat 


处 理 作业 。 


4.2.1 Spark Streaming 简介 


户 可 以 结合 流 式 、 批 处 0 合 
理 。Spark Streaming 用 于 大 规模 的 流 式 数据 处 理 ， 可 将 流 式 计算 分 解 成 一 系列 短小 的 批 


询 进行 数据 处 


Spark Steaming 是 基于 Apache Spark 核心 API 构建 的 一 套 并 发 流 处 理 库 ， 其 对 实时 流 数 


据 的 处 理 具 备 可 扩展 性 、 高 吞吐 量 和 可 容错 忻 等 特点 。Spark Steaming 负 


痊 入 数据 的 来 源 既 可 


以 是 Kafka、Flume、Twitter、ZeroMQ、Kinesis 等 消息 队列 系统 ， 也 可 以 是 传统 的 TCP 套 接 
字 传 输 的 原生 数据 ， 如 图 4-1 所 示 ， 系 统 中 的 流 数 据 经 由 map、reduce、join、window 等 高 


级 函数 接口 构建 而 成 的 算法 模块 ， 如 机 器 学 习 算法 、 图 计算 算法 处 理 ， 


存储 或 推送 到 文件 系统 、 数 据 库 或 实时 监控 页 面 中 。 


(Kaka ] 


最 终生 成 的 数据 可 被 


(_ Fume ] (mprs ] 
Streaming 
(Kinesis ] (_ Dashboards ] 


图 4-1 Spark Steaming 的 输入 与 输出 


Spark Steaming 的 内 部 工作 机 制 ， 如 图 4-2 所 示 。Spark Steaming 0 


| 


流 ， 并 将 数据 分 割 成 批 数据 (Batches) 供 Apache Spark 核心 系统 处 理 


统 处 理 数据 后 ， 得 到 最 终 的 结果 批 数 据 。 


EE， 经 Apache Spark 系 


input data batches of batches of 
二 Spark input data Spark processed data 
Streaming CY Engine > 


图 4-2 ”Spark Steaming 内 部 工作 机 于 


Ce 


Spark Steaming 提供 了 一 个 名 为 离散 流 (Discretized Stream， 简 称 DStream) 的 高 级 系统 
抽象 ， 用 于 表示 连续 的 数据 流 。 在 系统 内 部 ，DStream 由 一 系列 的 RDD 构成 。 


4.2.2 人 门 实例 


本 小 节 演 示 一 个 基础 的 Spark Streaming 入 门 程序 。 其 能 够 统计 从 TCP 套 接 字 中 得 到 的 


远程 数据 服务 器 提供 的 文本 数据 中 的 单词 总 数 。 


首先 需要 导入 Apache Spark 和 Spark Streaming 的 相关 包 ， 配 置 相关 参数 SparkConf， 与 


Apache Spark 核心 不 同 的 是 接 下 来 需要 实例 化 StreamingContext 


类 而 非 SparkContext 。 
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StreamingContext 与 SparkContext 类 似 ， 是 Apache Spark 所 有 流 计算 相关 操作 的 入 口 。【【 例 
4-9】 展 示 了 如 何 建立 一 个 具有 两 个 执行 线程 以 及 批 处 理 间 隔 (Batch Interval ) 时 长 为 一 秒 的 
本 地 StreamingContext。 

【 例 4-9】 构建 StreamingContext。 


import org.apache.spark._ 


import org.apache.spark.streaming._ 


import org.apache.spark.streaming.StreamingContext._// 在 Spark 1.3 之 后 不 是 必须 的 
/ 创建 包含 两 个 线程 的 和 批 处 理 时 间 为 1 秒 的 本 地 StreamingContext 

// master 节点 需要 2 个 核心 来 防止 出 现 核心 不 足 的 情况 

val conf = new SparkConfO.setMaster("local[2]").setAppName("NetworkWordCount ) 


val ssc = new StreamingContext(conf, Seconds(1)) 


通过 StreamingContext， 可 以 创建 表示 数据 流 的 DStream 对 象 ， 下 面 代码 片段 展示 创建 
从 指定 源 获取 数据 的 DStream 对 象 ， 得 到 的 lines 变量 表示 从 数据 服务 器 〈 本 地 ) 获得 的 流 
数据 ，lines 中 的 每 条 记录 都 表示 一 行文 本 数据 。 


/ 创建 一 个 DStream 来 连接 host name:port, 例如 localhost:9999 
val lines = ssc.socketTextStream("localhost", 9999) 


接 下 来 将 lines 中 的 每 行文 本 以 空格 划分 成 单词 ， 代 码 如 下 。flatMap 操作 是 将 lines 的 每 
条 记录 切 分 成 多 条 记录 ， 从 而 得 到 一 个 新 的 离散 流 words。 
/ 把 每 一 行 切 分 成 单词 
val words = lines.flatMap(_.split(" ")) 

下 一 步 ， ~ 的 个 数 ， 如 【 例 4-10】 所 示 。 与 Apache Spark 中 RDD 提供 的 操作 接 
类 似 ，words 分 别 经 由 map 和 reduceByKey 两 个 操作 接口 统计 单词 的 个 数 并 将 其 输出 。 需 
要 注意 ，pairs DStream 类 型 。 

【 例 4-10】 单词 个 数 统计 。 


号 


import org.apache.spark.streaming.StreamingContext._ 
/ 计算 每 一 批 中 的 单词 


val pairs = words.map(word => (word, 1)) 


val wordCounts = pairs.reduceByKey(_+._) 
/ 打印 DStream 中 的 RDD 中 的 前 10 个 元 素 到 控制 台 
wordCounts.print() 


到 此 处 ， 工 作 其 实 并 未 完成 。 当 上 述 代 码 执 行 时 ，Spark Streaming 只 是 存储 了 计算 
的 流程 ， 真 实 的 计算 尚未 被 执行 ， 因 此 需要 继续 调用 如 下 源码 来 启动 计算 并 等 竺 计算 被 
终止 


| .o 


ssc.start() // 开始 计算 
ssc.awaitTermination() // 等 待 计算 结束 


运行 效果 如 图 4-3 所 示 。 


证 
HD 
— 
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1. nc -lk 9999 (nc) 


llo,1) 
(World,1) 


[ 


国 ”Compilation completed successfully in 38 sec (6 minutes ago) 习 13:31 LF: UTF-8: m 画 


图 4-3 单词 程序 执行 结果 


4.2.3 基本 概念 


在 Saprk Streaming 中 有 一 些 基 本 概念 ， 对 基本 概念 的 掌握 会 提高 对 Spark Streaming 的 
理解 ， 并 将 更 容易 地 使 用 Spark Streaming。 

1. 链接 

类 似 于 Apache Spark，Spark Streaming 也 可 以 利用 Maven 仓库 管理 依赖 。 编 写 Spark 
Streaming 程序 的 时 候 ， 需 要 将 【 例 4-11】,【 例 4-12】 所 示 的 代码 片段 依赖 信息 添加 到 SBT 
或 者 Maven 工程 文件 中 。 

【 例 4-11】 Maven 依赖 信息 。 


<dependency> 
<“groupId>org.apache.spark</groupId> 
<artifactId>spark-streaming_2.10</artifactId> 
<version>1.4.1</version> 


</dependency> 


【 例 4-12】 SBT 依赖 信息 。 


libraryDependencies += "org.apache.spark" % "spark-streaming_2.10" % "1.4.1" 


若 需 要 从 Kafka、Flume 和 Kinesis， 这 些 Spark Streaming 核心 未 提供 相应 API 处 理 接口 
的 数据 源 中 读 取 数据 ， 需 要 将 相应 的 包 添 加 到 依赖 中 ， 包 格式 为 spark-streaming-xyz-2.10。 
一 些 常 用 的 依赖 如 表 4-7 所 示 。 
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表 4-7 常用 数据 源 对 应 依赖 表 


Kafka spark-streaming-kafka_2.10 

Flume spark-streaming-flume._ 2.10 

Kinesis spark-streaming-kinesis-asl_2.10 [Apache Software License] 
Twitter spark-streaming-twitter_2.10 
ZeroMQ spark-streaming-zeromq_2.10 

MQTT spark-streaming-mqtt_2.10 


程序 的 最 开始 ， 需 要 创建 一 个 StreamingContext 对 象 作为 Spark Streaming 所 有 流 数据 操 
作 的 入 口 ， 在 【 例 4-13】 中 ，SparkConf 的 设置 与 Apache Spark 一 致 ， 创 建 Streaming 
Context 时 候 需 要 传 入 SparkConf 对 和 象 ， 并 设置 批 处 理 间隔 时 长 。 也 可 以 利用 已 有 的 
SparkContext 对 象 创建 StreamingContext 对 象 。 

【 例 4-13】 创建 StreamingContext 对 象 。 


import org.apache.spark.streaming._ 
val sc=... // 已 经 存在 的 SparkContext 
val ssc = new StreamingContext(sc, Seconds(1)) 


当 一 个 StreamingContext 对 象 创建 完毕 之 后 ， 流 处 理 的 流程 如 下 。 
1) 定义 输入 源 。 

2) 指定 流 计 算 所 需要 的 指令 。 

3) 调用 StreamingContext 的 start 方法 开始 接受 和 处 理 数据 。 

4) 处 理 过 程 会 持续 直到 SteamingContext 的 stop 方法 被 调用 。 
此 外 还 有 如 下 一 些 个 别 需 要 注意 的 地 方 。 
1) 一 旦 SparkContext 启动 ， 就 不 能 有 新 的 DStream 被 配置 或 者 添加 到 SparkContext 


2) 一 旦 SparkContext 停止 ， 就 不 能 重新 启动 。 

3) 一 个 JVM 内 同一 时 间 只 能 有 一 个 StreamingContext 处 于 活跃 状态 。 

4) 若 调 用 StreamingContext 对 象 的 stop 方法 ， 则 SparkContext 对 象 也 会 失效 。 如 果 只 
想 关 闭 StreamingContext， 则 设置 stop 方法 的 可 选 参数 为 false。 

5) 一 个 SparkContext 对 象 可 用 于 创建 多 个 StreamingContext 对 象 ， 前 提 是 上 一 个 
StreamingContext 对 象 已 经 被 关闭 ， 并 且 SparkContext 对 象 没有 被 关闭 。 

2. 离散 流 〈DStreams ) 

离散 流 DStream 表示 连续 的 数据 流 ， 在 Spark Streaming 内 部 ， 离 散 流 由 一 系列 连续 的 
RDD 组 成 ， 每 个 RDD 都 包含 某 个 确定 时 间 间 隔 的 数据 ， 如 图 4-4 所 示 。 


RDD@timel RDD@time2 RDD@time3 RDD @ time4 
DStream_—_ | datafrom | _| datafrom | _| datafrom |__| datafrom | 
time Otol time 1 to 2 time 2 to 3 time 3 to 4 


图 4-4 ”离散 流 由 多 个 连续 的 RDD 组 成 
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离散 流 的 生 


F 何 操作 都 转换 为 对 离散 流 内 部 RDD 的 操作 。flatMap 转换 操作 会 被 应 用 


lines 内 部 的 所 有 RDD 上 ， 过 程 如 图 4-5 所 示 。 


lines 


__| linesfrom | _ lines from 
DStream time 0tol time 3 to 4 
flatMap 
operation 
words _ _|wordsfrom | _ words from 
DStream time 0tol time 3 to 4 


图 4-$ flatMap 操作 被 应 用 到 每 一 个 RDD 之 上 


3. 离散 流 (DStreams) 输入 操作 
每 个 离散 流 的 输入 流 都 与 一 个 Receiver 对 象 相 关联 ，Receiver 负责 从 源 中 获取 数据 ， 
将 数据 写 入 内 存 中 等 待 处 理 。 


Spark Streaming 拥有 如 下 两 类 输入 源 。 


@ 基本 源 : 


、Akka 


， 可 直接 读 取 的 源 ， 例 如 文件 系统 、 


StreamingContext 中 提供 API 接口 
的 Actor 等 。 


并 


套 接 


@ 高 级 源 : StreamingContext 中 未 提供 直接 的 API 接口 来 读 取 数 据 的 源 ， 例 如 Kafka、 


Flume、 


Spark Streaming 人 允 放 


已 经 为 Spark Streaming 应 


程 数 )。 


由 于 Receiver 需要 在 后 台 长 


等 


Kinesis 寺 。 


F 实 例 化 多 个 DStream 对 象 ， 从 而 创建 多 个 Receiver 来 同时 接收 


多 个 


期 运行 ， 因 此 会 占用 工作 节点 的 一 个 核 ， 这 就 需要 


SNE/ 
程序 分 配 足 够 多 的 CPU 核心 (如 果 是 在 本 地 i 则 此 处 


云 行 


运 们 ， 


还 有 以 下 几 
1) 如 果 分 


机 


点 需要 六 [Eo 
配给 应 用 程序 的 CPU 核心 数 


[= 


目 少 于 或 者 等 于 


Receiver 的 数目 ， 那 么 系统 


接收 而 不 能 处 到 
2) 当 运 行 
和 王 务 ， 这 会 导 


在 本 地 时 ， 如 果 设 置 主 节点 的 URL 地 址 为 local 的 话 ， 只 会 有 


EE 数据。 


个 本 地 CPU 
直 占 用 一 个 核心 来 接收 数据 ， 从 而 没有 多 余 的 核心 来 处 理 


导致 Receiver 


志 
支持 将 文件 


EE 入门 实例 
系统 和 Akka actors 作为 输入 源 并 


PP 已 经 展示 了 从 TCP 套 接 字 获取 数据 流 的 方法 ， 此 外 ，Spark Streamin 
于 创建 DStream。 


保证 
是 线 


只 能 


/人 AN\ 明 已 


核 运 


数据 。 


g 还 


若 将 文件 系统 作为 输入 源 ， 则 得 到 的 数据 流 为 文件 流 (File Streams)。Spark Streaming 


可 以 从 任何 与 HDFS API 注 


容 的 文件 系统 


中 读 取 数据 ， 创 建 办 法 


有 如 下 3 种 。 


@ streamingContext.fileStream[KeyClass, ValueClass, InputFormatClass](dqataDirectory) 


@ streamingContext.fileStream[KeyClass, ValueClass, InputFormatClass]l(dataDirectory) 


@ streamingContext.textFileStream(dataDirectory) 


Spark Stream 会 一 直 监 控 dataDirectory 目录 ， 并 且 处 理 该 目录 下 生成 的 任何 文件 ， 
要 注意 以 下 几 点 。 

1) 所 有 文件 都 必须 具有 相同 的 数据 格式 。 

2) dataDirectory 目录 下 的 所 有 文件 都 是 通过 移动 或 者 重 命名 的 方式 被 创建 ， 移 动 
命名 的 操作 具备 原子 性 。 

3) 一 旦 文件 进入 目录 就 不 能 发 生 改 变 ， 如 果 有 新 数据 附加 到 已 有 文件 后 面 ， 这 部 


但 需 


和 加 


分 新 
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内 容 不 会 被 程序 读 取 。 


对 于 比较 简单 的 文本 文件 ， 建 议 使 用 StreamingContext 的 textFileSystem(dataDirectory) 方 


一 < 


去 创建 DStream， 这 种 方法 不 需要 运行 Receiver， 因 此 不 需 


# 要 分 配 内 核 。 


若 将 Akka 的 actor 作为 数据 源 ， 则 需要 调用 StreamingContext 的 actorSystem(actorProps， 


actorname) 方 法 ; 


DStream.。 


ee 
要 按照 如 下 步骤 。 

添加 spark-streaming-twitter 2.10 到 SBT 或 者 Maven 

导入 TwitterUtils 类 ， 调 


为 例 ， 
2) 程序 编写 : 
DStream。 


3) 程序 部 署 : 将 编写 的 程序 以 及 其 所 有 


车 为 了 测试 Spark Streaming 应 


包 。 以 导入 Twitter 的 流 数 据 


] TwitterUtils 的 createStream 方法 来 创建 


程序 ， 也 可 以 将 RDD 队列 作为 数据 流 ， 
通过 调用 StreamingContext 的 queueStream(queueOfRDDs) 方 法 来 创建 基于 RDD 队列 


Li 


过 


工程 的 依赖 中 。 


依赖 打包 成 Jar 包 ， 


4. 离散 流 (DStream ) 转换 操作 


部 署 程序 。 


和 RDD 类 似 ， 离 散 流 支持 许多 在 RDD 中 能 用 的 转换 操作 ， 一 些 常 用 的 转换 操作 如 
表 4-8 所 示 。 
表 4-8 DStream 常用 转换 操作 
函 数 函数 说 明 
map(func) 以 函数 func 为 map 方法 参数 ， 处 理 源 DStream 内 每 个 元 素 ， 返 回 一 个 新 的 DStream 
flatMap(func) 与 map 相似 ， 但 每 个 输入 项 可 以 产生 0 个 或 者 多 个 输出 项 
filter(func) 返回 一 个 新 的 DStream， 它 仅仅 包含 源 DStream 中 满足 函数 func 筛选 过 滤 后 的 数据 
repartition(numOfPartitions) 通过 创建 更 多 或 更 少 的 分 区 改变 这 个 DStream 的 并 行 度 
union(otherStream) 源 DStream 与 其 他 DStream 元 素 合并 后 形成 新 的 DStream 
countO) 计算 源 DStream 里 RDD 中 元 素 个 数 ， 返 回 单元 素 RDD 组 成 的 DStream 
reduce(func) 使 用 函数 func( 有 两 个 参数 并 返回 一 个 结果 ) 将 源 DStream 中 的 每 个 RDD 进行 元 素 
聚合 ， 返 回 单元 素 RDD 组 成 的 新 的 DStream 
tByValue0) 当 请 求 元 素 类 型 为 K 的 DStream， 返 回 类 型 为 (K，Long) 的 键 值 对 的 新 DStream， 
A 其 中 每 个 键 的 值 就 是 它 的 源 DStream 每 个 RDD 频率 
当 一 个 类 型 为 kK, V) 键 值 对 的 DStream 被 调用 的 时 候 ， 返 回 类 型 为 (K，V) 键 值 对 
reduceByKey(func,[num Tasks]) 的 新 DStream， 其 中 每 个 键 的 值 都 是 使 用 给 定 的 reduce 函数 汇总 。 注 意 : 默认 情况 下 ， 使 
RABE | Spark 的 并 行 任务 默认 为 本 地 模式 ， 并 且 在 集群 模式 的 数目 是 由 配置 属性 确 
(spark.default.parallelism》〉 进 行 分 组 。 你 可 以 通过 可 选 的 numTasks 参数 设置 不 同 数量 任务 
join(otherStream, [num Tasks]) 当 被 调用 类 型 分 别 为 的 (K，V) 和 “(K，W) 键 值 对 的 2 个 DStream 时 ， 返 回 包含 所 
: 有 键 值 对 每 个 键 的 元 素 ， 类 型 为 (K，〔V，W)) 键 值 对 的 一 个 新 DStream 
i 多 今 人 钙 舍 式 HH 坟 后 元 杂居 
cogroup(otherStream, [numTasks]) | DStream 含有 (K, Y) 和 (K, W) 键 值 对 时 ， 返 四 (KKSeq[V]'Seq[WD) 元 组 的 
transform(func) 通过 源 DStream 的 RDD 使 用 RDD-to-RDD 函数 ， 返 回 一 个 新 的 DStream 
dateStateBvKev(f 返 世 2 “状态 ”的 DStream， 所 在 每 个 键 的 状态 是 根据 键 的 前 一 个 状态 和 键 的 新 
人 值 应 用 给 定 函 数 后 的 更 新 。 这 可 以 用 来 维持 键 的 状态 
表 4-8 中 最 后 的 几 个 操作 相对 比较 重要 ， 在 此 对 其 进行 具体 解释 。 


(1) UpdateStateByKey 操作 


updateStateByKey 操作 可 以 让 


92 


i 
EF 意 想 要 


发 者 保持 人 有 


的 状态 ， 同 时 不 断 有 


新 的 信息 进行 更 


以 


新 。 使 用 此 功能 必须 做 到 以 下 两 点 。 
1) 定义 状态 一 一 状态 可 以 是 任意 的 数据 类 型 。 
2) 定义 状态 更 新 函数 一 一 用 一 个 函数 指定 如 何 使 用 先前 的 状态 和 从 输入 流 中 的 新 值 来 


例如 : 
def updateFunction(newValues: Seq[Intlj, runningCount: Option[Int]): Option[Int] = { 
val newCount =... //add the new values with the previous running count to get the new count 
Some(newCount) 


} 


这 些 代码 将 应 用 到 包含 单词 的 DStream， 即 在 前 面 【 例 4-10】 中 出 现 的 包含 (word, 1) 的 
DStream 对 。 


val runningCounts = pairs.updateStateByKey[Int](updateFunction _) 


每 一 个 单词 都 将 调用 更 新 函数 ，newValues 具有 序列 1 (从 (word，1) 键 值 对 ) 且 
runningCount 表示 以 前 的 计数 。 使 用 updateStateByKey 需要 注意 先 将 checkpoint 目录 配置 
好 ， 这 将 在 checkpoint 部 分 详细 讲述 。 

(2) Transform 操作 

该 转换 操作 允许 在 DStream 上 进行 任意 RDD 到 RDD 的 操作 。 它 可 以 被 应 用 于 未 在 
DStream API 中 开放 的 RDD 操作 ， 例 如 ， 在 每 批 次 的 数据 流 与 另 一 数据 集 的 join 操作 不 直接 
开放 在 DStream 的 API 中 ， 但 是 ， 可 以 轻松 地 使 用 tranform 操作 来 做 到 这 一 点 。 例 如 如 下 代 
码 中 ， 通 过 连接 预先 计算 的 垃圾 邮件 信息 的 输入 数据 流 ， 然 后 基于 此 做 实时 数据 清理 的 筛选 。 


党 


val spamInfoRDD = ssc.sparkContext.newAPIHadoopRDD!(...) 
val cleanedDStream = wordCounts.transform(rdd => { 
rdd.join(spamInfoR DD).filter(...) 


)) 
事实 上 ， 也 可 以 在 转换 方法 中 使 用 机 器 学 习 和 图 形 计算 的 算法 。 

(3) Window 操作 

最 后 ，Spark Streaming 还 提供 了 窗口 的 计算 ， 它 允许 通过 滑动 窗口 对 数据 进行 转换 。 
图 4-6 曾 述 了 这 种 滑动 窗口 的 实现 原理 。 


time 1 time 2 time 3 time 4 time 5 


se - 旧 一 晶 一 国 二 卓 二 本 


window-based 


| operation 
windowed 
DStream 一 一 上 NA Sy i Ss 
window window window 
attime 1 at time 3 at time $ 


图 4-6 滑动 窗口 示意 图 


93 


如 图 4-6 所 示 ， 窗 口 


源 DStream 中 滑动 ， 合 并 和 操作 落 入 窗 内 的 RDDs， 产 生 窗 口 化 的 


RDDs。 在 该 图 中 可 见 ， 程 序 在 3 个 时 间 单 元 的 数据 上 进行 窗口 操作 ， 并 且 每 两 个 时 间 单 元 


滑动 一 次 。 这 表明 窗口 操作 需要 指定 两 个 参数 。 


@ window length - 窗 


口 持续 时 间 。 


@ sliding interval - 窗口 操作 之 间 的 间隔 。 


这 两 个 参数 必须 是 源 
一 些 和 常见 的 窗口 的 操 


DStream 的 批 次 间隔 的 倍数 。 
作 如 表 4-9 所 示 ， 所 有 这 些 操作 的 参数 都 包括 windowLength 和 


SlideInterval 。 
表 4-9 窗口 常见 操作 
操作 说 明 
window(windowLength, slideInterval) 返回 一 个 基于 源 DStream 的 窗口 批 次 ， 计 算得 到 新 的 DStream 
countByWindow(windowLength,slideInterval) 返回 一 个 流 中 的 元 素 的 滑动 窗口 计数 
返回 一 个 新 的 单 件 流 ， 通 过 func 及 使 用 滑动 间隔 对 数据 流 中 


reduceByWindow(func, windowLength,slideInterval) 


的 元 素 聚 合 。 该 函数 应 该 联合 以 便 它 可 以 正确 地 并 行 计算 


reduceByKeyAndWindow(func,invFunc,windowLength,slideIn | 中 每 个 键 的 值 是 根据 给 定 的 reduce 函数 fonc 和 滑动 窗口 批 次 汇 
terval, [numTasks]) 总 。 注 意 : 默认 情况 下 ， 这 里 使 用 Apache Spark 的 并 行 任务 默认 


当 调 用 DStream(K，V) 对 时 ， 返 回 新 (K,V) 对 的 DStream， 共 


为 本 地 模式 ， 在 集群 模式 下 的 数量 由 配置 属性 决定 


countByValueAndWindow(windowLength,slideInterval,[numT | DStream 对 ， 


asks]) 


API 文档 中 提供 DS 
PairDStreamFunctions。 对 


当 被 调用 的 区 V) 对 的 DStream， 返 回 新 的 (K，Long) 对 的 

其 中 每 个 键 的 值 是 其 在 一 个 滑动 窗口 中 的 频率 。 和 
reduceByKeyAndWindow 操作 一 样 ， 减 少 任务 的 数量 是 通过 一 个 
可 选 的 参数 进行 配置 


tream 转换 的 完整 列表 。 对 于 Scala 的 API， 可 参考 DStream 和 
于 Java 的 API， 可 参考 JavaDStream 和 JavaPairDStream。 


5. 离散 流 〈DStream ) 输出 操作 

输出 操作 允许 DStream 的 数据 被 推送 出 外 部 系统 ， 如 数据 库 或 文件 系统 。 由 于 输出 操作 
实际 上 使 变换 后 的 数据 被 外 部 系统 使 用 ， 它 们 触发 了 所 有 DStream 转换 的 实际 执行 (类 似 于 
RDDs 操作 )， 输 出 操作 的 定义 如 表 4-10 所 示 。 


输出 操作 


表 4-10 DStream 输出 操作 


说 明 


print() 


先 在 Dirver 上 打印 每 一 批 DStream 数据 中 的 10 个 元 素 。 这 对 于 开发 和 调试 很 实 


saveAsObjectFiles(prefix,[suffix]) 


根据 产生 在 每 个 批 次 间隔 的 文件 名 前 级 和 后 级 ， 将 DStream 的 内 容 序 列 化 为 对 象 并 保 
存 为 SequenceFile 文件 


saveAsTextFiles(prefix,[suffix]) 


saveAsHadoopFiles(prefix,[suffix]) 


根据 产生 在 每 个 批 次 间隔 的 文件 名 前 级 和 后 级 ， 保 存 此 DStream 的 内 容 作 为 文本 文件 
根据 产生 在 每 个 批 次 间隔 的 文件 名 前 级 和 后 级 ， 保 存 此 DStream 的 内 容 为 Hadoop 的 


foreachRDD (func) 


最 常用 的 应 用 于 函数 的 操作 。 这 个 函数 把 每 个 RDD 内 的 数据 输出 到 外 部 存储 系统 ， 
例如 把 RDD 保存 到 文件 或 写 到 数据 库 。 注 意 函 数 func 是 在 driver 进程 被 应 用 执行 且 通 
常 有 action 操作 


6. DataFrame 和 SQL 操作 


使 用 DataFrames 和 
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SQL 操作 流 数 据 ， 首 先 ， 必 须 通 过 StreamingContext 正在 使 用 的 


SparkContext 对 象 来 创建 一 个 SQLContext， 然 后 Spark Streaming 才 可 


K 动 程序 运行 失败 


后 重新 启动 。 下 面 这 个 例子 【 例 4-14】 是 通过 DataFrames 和 SQL 来 对 单词 进行 计数 ， 每 一 


个 RDD 都 会 转换 为 DataFrame， 并 注册 为 一 个 临时 表 然 后 执行 SQL 查询 。 
【 例 4-14】 RDD 和 SQL 操作 示例 。 


可 以 在 不 同 的 线程 


步 运 行 StreamingContext。 但 是 ， 必 须 确保 设 量 


/** streaming 项 目 中 的 DataFrame 操作 */ 
val words: DStream[String] = … 


words.foreachRDD { 
rdd => 


/ 获得 SQLContext 的 单 例 对 象 

val sqlContext = SQLContext.getOrCreate(rdd.sparkContext) 
import sqlContext.implicits._ 

// 把 RDD[String] 转 换 为 DataFrame 

val wordsDataFrame = rdd.toDF("word") 


/ 注册 为 表 


wordsDataFrame.registerTempTable("words") 
val wordCountsDataFrame = 
sglContext.sql("select word, count(*) as total from words group by word") 


wordCountsDataFrame.show() 


} 


Ph 运行 SQL 语句 去 查询 被 注册 为 临时 表 的 流 式 数 据 ， 也 就 是 可 以 异 
的 StreamingContext 能 够 保留 住 足 人 够 多 的 流 数 


据 以 便 查 询 可 以 运行 ， 否 则 没有 意识 
删除 旧 的 流 式 数据 。 例 如 ， 如 


运行 完 ， 


(Minutes(9))。 
7. MLlib 操作 


在 使 用 


及 应 用 
对 离线 的 数据 进行 学 习 ， 然 后 将 得 到 的 数据 模型 应 用 寿 


在 流 数 据 上 的 模型 


参见 MLlib 章节 。 
8. 缓存 与 持久 化 


类 似 RDD，DStream 还 允许 了 


被 设 定 为 将 数据 复 人 


几 器 学 习 算 法 。 有 


Pp， 还 可 以 轻松 地 使 用 MLlib 提供 
司 时 从 流 数据 以 


回归 ， 流 KMeans 等 )， 这 些 算法 可 以 
还 有 另 一 大 类 的 机 器 学 习 算法 ， 


Spark Streaming 的 过 丰 
一 类 流 式 机 器 学 习 算 法 〈 例 如 流 线 性 
学 习 。 除 了 这 些 ， 


询 的 StreamingContext 会 在 查询 语句 完成 之 前 
想 要 查询 最 后 一 批 数 据 ， 但 是 查询 需要 5 分 钟 的 时 间 才 能 够 


那么 就 需要 对 StreamingContext 进行 设置 : streaming Contextremember 


这 些 算法 可 以 


E 在 线 的 流 式 数 据 处 理 中 


吓 到 两 个 节点 


。 更 多 细节 请 


和 发 者 把 流 的 数据 持久 化 到 内 存 中 。 也 就 是 说 ， 在 DStream 
中 用 persist 方法 将 自动 持久 化 DStream 中 的 每 一 个 RDD 到 内 存 中 ， 如 果 在 DStreams 的 数据 
将 被 计算 多 次 ， 这 是 很 有 用 的 。 对 于 像 基于 窗口 的 操作 reduceByWindow 和 reduceByKeyAnd 
Window 和 基于 状态 的 操作 例如 updateState ByKey， 持 久 化 操作 
4 persist。 

对 于 通过 网 络 接收 数据 (如 Kafka，Flume，Socket 等 ) 的 输入 数据 流 ， 默 认 持久 化 等 级 
于 容错 。 注 意 ， 不 像 RDD，DStream 的 默认 持久 化 等 级 将 


也 认 的 ， 无 需 开 发 人 员 调 
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序列 化 数据 到 内 存 中 。 
9. 检查 点 


一 个 Streaming 应 用 必须 保 订 


(如 系统 错误 ，JVM 月 溃 等 )。Spark Streaming 需要 保存 足够 的 信息 到 容错 
面 对 错 误 的 时 候 能 恢复 数据 。 这 里 有 两 种 类 型 的 数据 进行 checkpoint 操作 。 


(1) 元 数据 
定义 着 Streaming 


F 7 天 的 连续 工作 ， 所 以 必须 能 应 对 非 应 用 届 辑 出 现 的 错误 


存储 系统 ， 这 样 在 


计算 过 程 的 内 容 保存 在 的 容错 系统 (如 HDES) 中， 在 节点 运行 


Streaming 应 用 失败 后 用 来 恢复 数据 。 元 数据 包括 以 下 内 容 。 


1) 配置 文件 创造 Streaming 应 月 
定义 Streaming 应 用 的 一 系列 操作 集合 。 
中 但 没有 被 完成 的 批 处 理 。 


2) DStream 操作 


3) 不 完全 的 批 处 理 内 容 一 一 在 队列 


(2) 中 间 数 据 


2 


日 的 配置 文件 。 


很 有 必要 的 。 在 容错 处 理 的 转换 过 程 
了 避免 这 样 的 约束 ， 周 期 怕 


把 生成 的 RDD 保存 到 可 靠 存 储 系统 ， 这 在 一 些 状态 转移 的 多 个 批 数 据 处 理 结 合 过 程 中 
PF， 根据 RDD 依赖 链 进行 RDD 生成 的 时 间 会 增加 。 为 


1) 何 时 启动 checkpoint。checkpoint 在 下 列 需 求 中 必须 被 启用 : 


@ 状态 变化 的 使 用 场景 一 一 如 果 updateStateByKey 或 者 reduceByKeyAndWindow 被 使 


用 ， 则 必须 为 保存 


RDD 的 checkpoint 信息 设置 chenkpoint 目录 。 
@ 运行 应 用 的 driver 从 错误 中 恢复 一 一 元 数据 被 应 用 到 进程 信息 恢复 中 。 


注意 ， 简 单 的 应 用 无 须 启 ) 

2) 如 何 配置 checkpoint。Checkpointing 〈 检 查 ， 
盘 上 ) 可 以 从 可 靠 系统 (如 HDFS，S3 等 ) 中 设置 目录 ， 通 过 使 用 
checkpoint(checkpointDirectory) 方 法 来 完成 ， 配 置 这 样 就 可 以 使 ) 


] checkpoint 也 可 以 使 用 


即 保存 当前 RDD 运 


FE 的 checkpoint 数据 到 可 靠 存储 系统 将 显得 十 分 重要 。 


行 的 依赖 信息 到 磁 


streamingContext. 


如 上 所 述 的 状态 转移 信息 了 。 


此 外 ， 当 应 用 程序 出 现下 面 的 两 种 情况 时 ， 如 果 想 从 驱动 错误 中 恢复 ， 则 需要 重 写 Streaming 


心 用 


后 启用 start。 


@ 程序 在 出 错 之 后 被 


创建 StreamingContext。 
【 例 4-15】 StreamingContext 的 使 用 示例 。 


/ 创建 和 启动 StreamingContext 的 函数 


def functionToCreateContext(): StreamingContext = { 


val ssc = new StreamingContext(...) 


启动 的 时 候 ， 它 会 从 checkpoint 目录 中 


// new context 


val lines = ssc.socketTextStream(...) // create DStreams 


ssc.checkpoint(checkpointDirectory)  // set checkpoint directory 


SSC 


} 
// 从 checkpoint 数 ] 


居中 获得 StreamingContext 或 


创建 一 个 新 的 


的 checkpoint 数据 中 于 


@ 程序 第 一 次 运行 的 时 候 ， 它 会 创建 一 个 StreamingContext， 建 立 起 所 有 的 Streams 然 


新 


IN 


val context = StreamingContext.getOrCreate(checkpointDirectory, functionToCreateContext _) 
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context. ... 
// 启动 context 


context.start() 


context.awaitTermination() 


10. 应 用 部 署 

Spark Streaming 应 用 程序 可 以 与 任何 其 他 的 Spark 应 用 部 署 在 集群 上 。 使 用 高 级 源 ( 如 
Kafka，Flume，Twitter) 的 应 用 程序 需要 将 其 链接 的 位 置 和 依赖 打包 ， 例 如 ， 使 用 应 用 程序 
TwitterUtils 将 必须 包括 spark-streaming-twitter_2.10 和 其 所 有 相关 依赖 。 

如 果 正 在 运行 的 Spark Streaming 应 用 程序 需要 升级 ， 那 么 有 下 面 两 种 机 制 。 

1) 升级 后 的 Spark Streaming 应 用 程序 启动 之 后 与 现 有 运行 中 应 用 程序 并 行 运行 。 一 旦 
新 的 程序 正常 运行 之 后 ， 旧 的 程序 就 可 以 停 用 。 请 注意 ， 这 种 方式 适合 于 支持 数据 发 送 到 两 
个 目的 地 的 数据 源 来 完成 。 

2) 现 有 的 应 用 程序 正常 关闭 
并 确保 已 接收 的 数据 在 关闭 前 被 完全 处 理 。 升 级 后 的 应 用 程序 可 以 启动 ， 并 从 之 前 程序 
停止 的 同一 点 开始 处 理 。 注 意 ， 这 需要 数据 源 〈 如 Kafka、Flume) 在 应 用 停 上 上 和 升级 应 用 且 
未 启动 之 前 把 输入 的 数据 存 入 绥 存 中 。 

11. 应 用 监控 

当 用 StreamingContext 时 ，Spark Web UI 显示 了 一 个 额外 的 Streaming 选项 卡 ， 用 于 显 
示 有 关 运 行 数据 的 接收 器 信息 《接收 器 是 否 处 于 活动 状态 ， 收 到 的 记录 数量 ， 接 收 错误 等 ) 
和 完成 的 批 次 〈 批 次 处 理 时 间 ， 排 队 时 延 等 ) 等 统计 信息 。 这 可 以 用 于 监测 Streaming 应 用 
程序 的 进度 。 

Web UI 中 的 两 个 指标 尤为 重要 : 处 理 时 间 和 调度 延迟 〈 批 量 处 理 统计 下 )。 第 一 个 是 要 
处 理 的 每 个 批 次 数据 的 时 间 ， 第 二 个 是 在 batch 队列 中 等 竺 先前 批 次 的 处 理 结束 时 间 。 
如 果 批 次 处 理 时 间 比 批 次 间隔 多 或 排队 延 公 不 断 增加 ， 则 说 明 该 系统 是 无 法 处 理 日 落后 
于 正在 生成 的 批 次 。 在 这 种 情况 下 ， 可 以 考虑 减少 批 次 处 理 时 间 。 


] 4.3 Spark GraphX 


GraphX 是 用 于 图 和 并 行 图 〈graph-parallel) 计算 的 一 个 新 的 Spark 组 件 。GraphX 引入 
了 扩展 自 Spark RDD 的 Resilient Distributed Property Graph 〈 一 种 带 有 项 点 和 边 属 性 的 有 癌 多 
重 图 )。 为 了 文 持 图 计算 ，GraphX 开放 了 一 组 基本 的 功能 操作 以 及 Pregel API 的 一 个 优化 。 
另外 ， 为 了 简化 图 分 析 任 务 ，GraphX 包含 了 一 个 日 益 增长 的 图 构造 以 及 计算 的 算法 集合 。 


4.3.1 Spark GraphX 简介 
在 开始 操作 GraphX 之 前 ， 需 要 先导 入 Spark 和 GraphX 包 到 项 目 中 ， 导 入 代码 如 下 。 


import org.apache.spark._ 
import org.apache.spark.graphx._ 
import org.apache.spark.rdd.RDD 
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如 果 没 有 使 用 Spark Shell， 那 么 就 需要 实例 化 一 个 SparkContext。 从 Spark 1.1 移植 到 
Spark 1.4.1 需要 注意 如 下 的 一 些 API 的 改变 。 

1) 为 了 提升 性 能 ，GraphX 使 用 了 mapReducecTriplets 的 新 版 本 aggregate 
Message， 它 通过 一 个 回调 类 EdgeContext 返回 之 前 的 消息 ， 而 不 是 过 去 那样 通过 返回 值 来 进 
行 该 操作 。 

2) 在 Spark 1.0 和 Spark 1.1 中 ，EdgeRDD 类 型 名 从 EdgeRDD[ED] 转 换 为 EdgeRDD 
[ED，VD]， 这 样 能 实现 一 些 缓存 优化 操作 。 


4.3.2 ”属性 图 


属性 图 (Property Graph) 是 一 个 有 问 多 重 图 ， 带 有 连接 每 个 顶点 和 边 的 用 户 定 义 的 对 
象 。 有 问 多 重 图 中 并 行 的 边 共享 相同 的 源 和 目的 项 点。 属性 图 支持 并 行 边 的 能 力 简 化 了 建 模 
场景 ， 这 个 场景 中 ， 一 个 顶点 可 能 存在 多 种 关系 (例如 同事 之 间 可 同时 存在 同事 关系 和 朋友 
关系 )。 每 个 顶点 由 唯一 的 64 位 的 标识 符 (VertexID) Key。GraphX 并 没有 对 顶点 标识 强加 
任何 排序 。 同 样 ， 边 拥有 相应 的 源 和 目的 顶点 的 标识 符 。 
属性 图 通过 Vertex(VD) 和 Edge(ED) 属 性 进行 参数 化 ， 这 两 个 属性 中 的 元 素 分 别 和 图 集 
合 中 的 点 和 边 一 一 对 应 。 
在 某 些 情况 下 ， 在 相同 的 图 形 中 ， 可 能 希望 顶点 拥有 不 同 的 属性 类 型 。 这 可 以 通过 继承 
完成 。 如 将 用 户 和 产品 建 模 成 一 个 二 分 图 ， 代 码 如 【 例 4-16】 所 示 。 
【 例 4-16】 二 分 图 建 模 示例 。 


class VertexProperty() 

case class UserProperty(val name: String) extends VertexProperty 

case class ProductProperty(val name: String, val price: Double) extends VertexProperty 
// 图 也 许 会 有 这 样 的 类 型 

var graph: Graph[VertexProperty, String] = null 


和 RDD 一 样 ， 属 性 图 是 不 可 变 的 、 分 布 式 的 、 容 错 的 。 图 的 值 或 者 结构 的 改变 需要 生 
成 一 个 新 的 图 来 实现 。 注 意 ， 原 始 图 的 大 部 分 都 可 以 在 新 图 中 重用 ， 以 便 减少 这 种 固有 的 功 
性 数据 结构 的 成 本 。 执 行者 使 用 一 系列 顶点 分 区 试探 法 来 对 图 进行 分 区 。 如 RDD 一 样 ， 
中 的 每 个 分 区 可 以 在 发 生 故 障 的 情况 下 被 重新 创建 在 不 同 的 机 器 上 。 
逻辑 上 的 属性 图 对 应 于 一 对 类 型 化 的 数据 集合 RDD)， 这 个 集合 对 每 一 个 项 点 和 边 的 属 
性 进行 编码 。 因 此 ， 图 类 包含 访问 图 中 顶点 和 边 的 成 员 ， 也 就 是 说 可 以 通过 图 类 操作 边 和 
点 。 图 类 代码 如 下 。 


pa 


class Graph[VD, ED] { 
val vertices: VertexRDD[VD] 
val edges: EdgeRDDI[ED] 

} 


VertexRDD[VD] 和 EdgeRDD[ED] 类 分 别 继 承 和 优化 自 RDDI(VertexID,VD)] 和 RDD 
[Edge[ED]]。VertexRDD[VD] 和 EdgeRDD[ED] 都 支持 额外 的 功能 来 进行 图 计算 和 利用 内 部 优 
化 。 属 性 图 的 一 个 例子 如 图 4-7 所 示 。 
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在 GraphX 项 目 中 ， 假 设 构造 一 个 包括 不 同 合作 者 的 属性 
和 职业 ， 可 以 用 描述 合作 者 之 间 关 系 的 字符 串 标 注 边 。 所 得 的 民 


Property Graph Vertex Table 


Advisor Id Property(V) 
3 (rxin,student) 
7 (gonzal,postdoc) 
5 (franklin,professor) 
2 2 (istoica,professor) 
ie 
§ 
Edge Table 
Srcld Dstld Property(E) 
(7) (7) 3 7 Collaborator 
jgonzal, istoica 3 de 
pst.doc. prof. 
2 全 Colleague 
5 J PI 
图 4-7 属性 图 


。 顶 点 属性 可 能 包含 用 户 名 
图 形 将 具有 下 面 代码 的 类 型 签 


名 ， 也 就 是 Graph[( 用 户 名 ， 职 业 )， 关 系 ]。 


val userGraph: Graph[(String, String), String] 


有 很 多 方式 可 以 从 一 个 原始 文件 、RDD 来 构造 一 个 属性 图 。 最 一 般 的 方法 是 利用 Graph 
object。【 例 4-17】 实 现 了 从 RDD 集合 来 生成 属性 图 《此 处 代码 只 是 一 个 片段 ， 如 果 想 要 运 
行 请 参考 后 面 完整 的 例子 )。 


【 例 4-17】 属性 图 示 伪 


We 
o 


// 这 里 假设 已 经 创建 了 SparkContext 
val sc: SparkContext 
/ 为 点 集 创建 RDD 
val users: RDD[(VertexId, (String, String))] = 
sc.parallelize(Array((3L, ("rxin", "student")), (7L., ("jgonzal", "postdoc")), 
(SL., ("franklin", "prof")), (2L, ("istoica", "prof")))) 


/ 为 边 集 创建 RDD 
val relationships: RDDI[Edge[String]] = 

sc.parallelize(Array(Edge(3L, 7L， "collab"), Edge(9L, 3L, "advisor"), 

Edge(2L, 5L., "colleague"), Edge(SL, 7L., "pi1"))) 

// Define a default user in case there are relationship with missing user 
val defaultUser = ("John Doe", "Missing") 
/ 建立 初始 图 
val graph = Graph(users, relationships, defaultUser) 


在 上 面 的 例子 中 用 到 了 Edge 样本 类 。 边 有 一 个 srcId 和 dstId 分 别 对 应 于 源 和 目标 顶点 
的 标识 符 。 另 外 ，Edge 类 有 一 个 attr 成 员 用 来 存储 边 属 性 。 


纪 


J 以 分 别 用 graph.vertices 和 graph.edges 成 员 将 一 个 图 解构 为 相应 的 顶点 和 边 ， 如 【 例 4-18】 
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所 示 。 
【 例 4-18】 民 


坚 构 示例 。 


= 


val graph: Graph[(String, String), String] 
1 计算 所 有 博士 后 用 户 
graph.vertices.filter { case (id, (name, pos)) => pos = = "postdoc" }.count 
/1/ 计算 所 有 "src > dst" 的 边 

graph.edges.filter(e => e.srcld > e.dstId).count 


注意 ，graph.vertices 返回 一 个 VertexRDDI[(String，String)]， 它 继承 于 RDD[(VertexID， 
(String，String))]。 所 以 可 以 用 Scala 的 case 表达 式 来 解构 这 个 元 组 。 男 一 方面 ，graph.edges 
返回 一 个 包含 Edge[String] 对 象 的 EdgeRDD。 也 可 以 使 用 case 类 的 类 型 构造 器 ， 代 码 如 下 。 


graph.edges.filter { case Edge (src, dst, prop) => Src > dst }.count 
除了 属性 图 的 项 点 和 边 视图 ，GraphX 也 包含 了 一 个 三 元 组 视图 。 三 元 组 视图 逻辑 上 将 
顶点 和 边 的 属性 保存 为 一 个 RDD[EdgeTripletfVD，ED]]， 它 包含 EdgeTriplet 类 的 实例 。 可 以 
通过 如 下 的 SQL 表达 式 表 示 这 个 连接 。 


SELECT src.id, dst.id, src.attr, e.attr, dst.attr 
FROM edges AS e LEFT JOIN vertices AS src, vertices AS dst 
ON e.srcld = src.Id AND e.dstId = dst.Id 


或 者 通过 图 4-8 所 示 内 容 来 表示 。 


Vertices: Edges: Triplets: 


图 4-8 三 元 组 视图 


EdgeTriplet 类 继承 于 Edge 类 ， 并 且 加 入 了 srcAttr 和 dstAttr 成 员 ， 这 两 个 成 员 分 别 包含 
源 和 目的 的 属性 。 用 一 个 三 元 组 视图 泻 染 字符 串 集 合 描述 用 户 之 间 关 系 的 代码 如 下 。 


val graph: Graph[(String, String), String] 
/ 用 三 元 组 视图 创建 factsRDD 
val facts: RDD[String] = 
graph.triplets.map(triplet => 
triplet.srcAttr_ 1+ "isthe"+tripletattr + " of " + triplet.dstAttr._1) 


facts.collect.foreach(println(_)) 


4.3.3 图 操作 

正如 RDD 有 基本 的 操作 map、filter 和 reduceByKey 一 样 ， 属 性 图 也 有 基本 的 集合 操 
作 ， 这 些 操作 采用 用 户 自 定义 的 函数 并 产生 包含 转换 特征 和 结构 的 新 图 。 定 义 在 Graph 中 的 
核心 操作 是 经 过 优化 后 的 实现 。 核 心 操作 组 合 的 便捷 操作 定义 在 GraphOps 中 。 然 而 ， 因 为 
有 Scala 的 隐 式 转换 ， 定 义 在 GraphOps 中 的 操作 可 以 作为 Graph 的 成 员 自 动 使 用 。 例 如 可 
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以 通过 


下 面 的 方式 计算 每 个 顶点 (定义 在 GraphOps 


val graph: Graph[(String, String), String] 


1/ 使 | 


] 隐 式 GraphOps.inDegrees 操作 


val inDegrees: VertexRDDI[Int] = graph.inDegrees 


区 分 核心 图 操作 和 GraphOps 的 原 


PF) 的 入 度 ， 代 码 如 下 。 


大 


是 为 了 在 将 来 支持 不 同 的 图 表示 。 每 个 图 表示 都 必 


须 提 供 核 心 操作 的 实现 并 重用 很 多 定义 在 GraphOps 中 的 有 用 操作 。 

0 Graph 和 中 (为 了 简单 起 见 ， 表 现 为 图 的 成 员 ) 的 功能 的 快速 
浏览 。 注 意 ， 某 些 函 数 签名 已 经 简化 ， 例 如 ， 默 认 参 数 和 类 型 的 限制 已 删除 ， 一 些 更 高 级 的 
ee 所 以 请 参 阅 API 文档 了 解 更 加 详细 的 操作 列表 ,【 例 4-19】 中 列 出 的 是 操 
作 总 览 。 

【 例 4-19】 运算 列表 汇总 。 

/** 属性 图 的 功能 总 结 */ 


class Graph[ VD, ED] { 


/ 关于 图 的 信息 


val numEdges: Long 


val numVertices: Long 

val inDegrees: VertexRDD[Int] 
val outDegrees: VertexRDDIInt] 
val degrees: VertexRDDIInt] 


// 


图 的 视图 


val vertices: VertexRDD[VD] 
val edges: EdgeRDDI[ED] 
val triplets: RDD[EdgeTriplet[VD, ED]] 


// 缓存 网 函数 


def persist(newLevel: StorageLevel = 


def cache(): Graph[VD, ED] 
def unpersistVertices(blocking: Boolean = true): Graph[ VD, ED] 


/ 转换 点 和 边 的 属 
def partitionBy(partitionStrategy: PartitionStrategy): Graph[ VD, ED] 


// Transform vertex and edge attributes 


StorageLevel. MEMORY_ONLY): Graph[VD, ED] 


def mapVertices[VD2](map: (VertexID, VD) => VD2): Graph[VD2, ED] 
def mapEdges[ED2](map: Edge[ED] => ED2): Graph[VD, ED2] 
def mapEdges[ED2](map: (PartitionID, Iterator[Edge[ED]]) => Iterator[ED2]): Graph[VD, ED2] 
def mapTriplets[ED2](map: EdgeTriplet[VD, ED] => ED2): Graph[VD, ED2] 
def mapTriplets[ED2](map: (PartitionID, Iterator[EdgeTriplet[VD, ED]]) => Iterator[ED2]) 

: Graph[VD, ED2] 


// 修改 图 结构 


def reverse: Graph[VD, ED] 


def subgraph( 


epred: EdgeTriplet[VD,ED] => Boolean = 


(x => true), 


vpred: (VertexID, VD) => Boolean = ((v, d) => true)) 


: Graph[VD, ED] 


def mask[VD2, ED2](other: Graph[VD2, ED2]): Graph[VD, ED] 


101 


def groupEdges(merge: (ED, ED) => ED): Graph[VD, ED] 
/ 连接 图 的 RDD ==== 一 = 一 一 一 一 一 一 = 一 一 一 一 一 一 一 一 一 一 一 
def joinVertices[U](table: RDDI[(VertexID, U)])(mapFunc: (VertexID, VD, U) => VD): Graph[VD, ED] 
def outerJoinVertices[U, VD2](other: RDD[(VertexID, U)]) 
(mapFunc: (VertexID, VD, Option[U]) => VD2) 
: Graph[VD2, ED] 
/ 聚集 邻 连 三 元 组 信息 =--=====------=-- 一 --------- 一 
def collectNeighborIds(edgeDirection: EdgeDirection): VertexRDD[Array[ VertexID]] 
def collectNeighbors(edgeDirection: EdgeDirection): VertexRDD[Array[(VertexID, VD)]] 
def aggregateMessages[Msg: ClassTag]( 
sendMsg: EdgeContext[VD, ED, Msg] => Unit, 
mergeMsg: (Msg, Msg) => Msg, 
tripletFields: TripletFields = TripletFields.All) 
: VertexRDDI[A] 
/ 从 代 式 图 并 行 计算 = 二 == 一 ========== 一 一 一- 
def pregel[ Al(initialMsg: A, maxIterations: Int, activeDirection: EdgeDirection)( 
vprog: (VertexID, VD, A) => VD, 
sendMsg: EdgeTriplet[VD, ED] => Iterator[ (VertexID, A)], 
mergeMseg: (A, A) => A) 
: Graph[VD, ED] 
大 汗 未 网 算 活 到 三 下 
def pageRank(tol: Double, resetProb: Double = 0.15): Graph[Double, Double] 
def connectedComponents(): Graph[VertexID, ED] 
def triangleCountO: Graph[Int ED] 
def stronglyConnectedComponents(numlter: Inb: Graph[VertexID, ED] 
} 


下 面 为 对 【 例 4-19】 
1. 属性 操作 
如 RDD 的 map 操作 一 样 ， 忆 


class Graph[VD, ED] { 

def mapVertices[VD2](map: (VertexId, VD) => VD2): Graph[VD2, ED] 

def mapEdges[ED2](map: Edge[ED] => ED2): Graph[VD, ED2] 

def mapTriplets[ED2](map: EdgeTriplet[VD, ED] => ED2): Graph[VD, ED2] 
} 


每 个 操作 都 产生 一 个 新 图 ， 这 个 新 图 包含 通过 用 户 自 定义 的 map 操作 、 得 到 修改 后 的 
顶点 或 边 的 属性 。 

注意 ， 每 种 情况 下 图 结构 都 不 受 影响 。 这 些 操作 的 一 个 重要 特征 是 它 允 许 所 得 图 形 重 ) 
原 有 图 形 的 结构 索引 (indices )。 下 面 的 两 行 代码 在 逻辑 上 是 等 价 的 ， 但 是 第 一 行 不 保存 结 
构 索引 ， 所 以 不 会 有 GraphX 系统 优化 的 特性 。 


UD 


包含 的 操作 进行 划分 介绍 。 


区 


性 


包含 如 下 的 操作 。 


点 


€ 


TT 


val newVertices = graph.vertices.map { case (id, attr) => (id, mapUdfGd, attr)) } 
val newGraph = Graph(newVertices, graph.edges) 


另 一 种 方法 是 用 mapVertices 坟 VD2)(ClassTag[VD2]):Graph[VD2,ED]) 保 存 索 引 ， 代 码 如 下 。 
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val newGraph = graph.map Vertices((id, attr) => mapUdf(id, attr)) 
这 些 操 作 经 常用 来 初始 化 的 图 形 ， 这 将 用 作 特 定 计 算 或 者 用 来 处 理 项 目 不 需 要 的 属性 。 
例如 ， 给 定 一 个 图 ， 这 个 图 的 顶点 特征 包含 出 度 ， 以 PageRank 算法 作为 示例 。 
【 例 4-20】 PageRank 算法 示例 。 


十 
旺 


/ 点 属性 为 出 度 的 图 
val inputGraph: Graph[Int, String] = 

graph.outerJoinVertices(graph.outDegrees)((vid, _, degOpt) => degOpt.getOrElse(0)) 
/ 构建 边 包 含 权重 的 图 且 每 个 顶点 是 初始 PageRank 
// and each vertex is the initial PageRank 
val outputGraph: Graph[Double, Double] = 

inputGraph.mapTriplets(triplet => 1.0 / triplet.srcAttr).mapVertices((id, _) => 1.0) 


结构 操作 
当前 的 GraphX 仅仅 支持 一 组 简单 常用 的 结构 性 操作 。【 例 4-21】 所 示 代 人 码 是 基本 的 结 

构 性 操作 列表 。 
【 例 4-21】 基本 的 结构 性 操作 列表 。 


class Graph[VD, ED] { 
def reverse: Graph[VD, ED] 
def subgraph(epred: EdgeTriplet[VD,ED] => Boolean, 
vpred: (VertexId, VD) => Boolean): Graph[VD, ED] 
def mask[VD2, ED2](other: Graph[VD2, ED2]): Graph[VD, ED] 
def groupEdges(merge: (ED, ED) => ED): Graph[VD,ED] 
} 


reverse 操作 返回 一 个 新 图 ， 这 个 图 的 边 的 方向 都 是 反 转 的 。 例 如 ， 这 个 操作 可 以 用 来 计 
算 反 转 的 PageRank。 因 为 反 转 操作 没有 修改 顶点 或 者 边 的 属性 或 者 改变 边 的 数量 ， 所 以 可 
以 在 不 移动 或 者 复制 数据 的 情况 下 有 效 地 实现 它 

subgraph 一 Boolean,(VertexId,VD) 一 Boolean):Graph[VD,ED]) 操 作 利 用 顶点 和 边 的 谓词 
(predicates )， 返 回 的 图 仅仅 包含 满足 顶点 谓词 的 顶点 、 满 足 边 谓 词 的 边 以 及 满足 顶点 谓词 的 
连接 顶点 (connect vertices)。subgraph 操作 可 以 用 于 很 多 场景 。【 例 4-22】 为 删除 断 开 的 连 
接 的 代码 示例 。 
【 例 4-22】 删除 断 开 的 连接 的 示例 。 


/ 创建 点 集 RDD 
val users: RDD[(VertexId, (String, String))] = 
sc.parallelize(Array((3L, ("rxin", "student")), (7L., ("jgonzal", "postdoc")), 
(SL., ("franklin", "prof")), (2L, ("istoica", "prof")), 
(4L., ("peter", "student")))) 


/ 创建 边 集 RDD 
val relationships: RDDI[Edge[String]] = 
sc.parallelize(Array(Edge(3L, 7L， "collab"), Edge(SL, 3L, "advisor"), 
Edge(2L, 5L., "colleague"), Edge(3L, 7L., "pi"), 
Edge(4L, OL., "student"), Edge(SL., OL, "colleague"))) 
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/ 创建 默认 用 户 以 防 有 失 联 用 户 关系 
val defaultUser = ("John Doe", "Missing") 
/ 建立 初始 图 
val graph = Graph(users, relationships, defaultUser) 
/ 注意 有 一 个 用 户 0 联系 着 用 户 4 (peter) 和 5 (franklin) 
graph.triplets.map( 

triplet => triplet.srcAttr 1 + "1s the "+ triplet.attr + " of " + triplet.dstAttr._ 1 

).collect.foreach(println(_)) 

/ 切断 它们 失去 联系 的 点 和 边 
val validGraph = graph.subgraph(vpred = (id, attr) => attr. 2 != "Missing") 
/ 有效 的 子 图 将 会 通过 移 除 用 户 0 来 切断 用 户 4 与 用 户 5 的 联系 
validGraph.vertices.collect.foreach(println(_)) 


validGraph.triplets.map( 
triplet => triplet.srcAttr_ 1 + "is the "+ triplet.attr + " of " + triplet.dstAttr._ 1 
).collect.foreach(println(_ )) 


注意 ， 上 面 的 例子 中 ， 仅 仅 提 供 了 顶点 谓词 。 如 果 没 有 提供 顶点 或 者 边 的 谓词 ， 
subgraph 操作 默认 为 true。 
mask(ClassTag[VD2],ClassTag[ED2]):Graph[VD,ED]) 操 作 构 造 一 个 子 图 ， 这 个 子 图 包含 
输入 图 中 包含 的 顶点 和 边 。 这 个 操作 可 以 和 subgraph 操作 相 结合 ， 基 于 另外 一 个 相关 图 的 特 
征 去 约束 一 个 图 。 例 如 可 以 利用 缺失 顶点 的 图 运行 连通 组 件 (Connected Components)， 然 后 
返回 有 效 的 子 图 ， 代 码 如 下 。 


// 运行 连通 组 件 
val ccGraph = graph.connectedComponents() // No longer contains missing field 
/ 移 除 失去 联系 的 点 和 边 

val validGraph = graph.subgraph(vpred = (id, attr) => attr. 2 != "Missing") 

/ 限制 有 效 子 图 的 结果 

val validCCGraph = ccGraph.mask(validGraph) 


groupEdges 坊 ED):Graph[VD,ED]) 操 作 合 并 多 重 图 中 的 并 行 边 ( 例 如 顶点 对 之 间 重 复 的 
边 )。 在 大 量 的 应 用 程序 中 ， 并 行 的 边 可 以 合并 〔 将 它们 的 权重 合并 〉 为 一 条 边 ， 从 而 降低 
图 的 大 小 。 

3. 连接 操作 

在 许多 情况 下 ， 有 必要 将 外 部 数据 加 入 到 图 中 。 例 如 ， 可 能 有 额外 的 用 户 属性 需要 合并 
到 已 有 的 网 中 或 者 可 能 从 一 个 图 中 取出 顶点 特征 加 入 到 另外 一 个 图 中 ， 这 些 任务 可 以 用 join 
操作 完成 。 下 面 【 例 4-23】 列 出 的 是 主要 的 join 操作 。 

【 例 4-23】 join 操作 示例 。 


class Graph[VD, ED] { 
def joinVertices[U](table: RDD[(VertexId, U)])(map: (VertexId, VD, U) => VD) 
: Graph[VD, ED] 
def outerJoinVertices[U, VD2](table: RDDI[(VertexId, U)])(map: (VertexId, VD, Option[U]) => VD2) 
: Graph[VD2, ED] 
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其 中 joinVertices[U])((VertexId,VD,U) 坟 VD)(ClassTag[U]):Graph[VD,ED]) 操作 将 输入 


RDD 和 顶点 相 结 合 ， 返 回 一 个 新 的 带 有 顶点 特征 的 图 。 这 些 特征 是 通过 在 连接 顶点 的 结果 


上 使 用 用 户 定义 的 map 函数 获得 的 。 在 RDD 中 没有 匹配 到 值 的 顶点 能 保留 其 
才 于 给 定 的 顶点 ， 如 果 RDD 中 有 超过 一 个 的 匹配 值 ， 则 仅仅 会 使 用 
的 方法 保证 输入 RDD 的 唯一 性 。 下 面 的 方法 也 会 预 索引 (pre-index) 返回 


注意 ， 
个 。 建 议 用 下 酝 
的 值 用 以 加 快 后 续 的 join 操作 。 


val nonUniqueCosts: RDD[(VertexID, Double)] 
val uniqueCosts: VertexRDD[Double] = 
graph.vertices.aggregateUsingIndex(nonUnique, (a,b) => a + b) 
val joinedGraph = graph.join Vertices(uniqueCosts)( 
(id, oldCost extraCost) => oldCost + extraCost) 


除了 将 定义 的 map 函数 


j 户 自 


] 到 所 有 顶点 和 改变 顶点 属 诉 


原始 值 


中 的 一 


E 类 型 以外， 更 一 般 的 


outerJoinVertices[U,VD2]) ((Vertexld,VD,Option[U]) SS VD2) (ClassTag[U],ClassTag[VD2]) : 


Graph[VD2,ED]) 操 
值 ，map 函数 需要 一 个 option 类 型 。 


作 与 joinVertices 类 似 。 因 为 并 不 是 所 有 顶点 在 RDD 中 都 能 拥有 匹配 的 


在 上 面 的 例子 中 用 到 了 柯 里 化 函数 的 多 参数 列表 。 虽 然 可 以 将 f(a)(b) 写 成 f(a,b)， 但 是 
f(a,b) 意 味 着 b 的 类 型 推 肠 将 不 会 依赖 于 a。 因 此 ， 用 户 需 要 为 定义 的 函数 提供 类 型 标注 。 


【 例 4-24】 更 一 般 的 join 操作 及 类 型 标注 示例 。 


val outDegrees: VertexRDD[Int] = graph.outDegrees 


val degreeGraph = graph.outerJoin Vertices(outDegrees) { (id, oldAttr, outDegOpb => 


outDegOpt match { 
case Some(outDeg) => outDeg 
case None => 0 // No outDegree means zero outDegree 


} 
} 


val joinedGraph = graph.joinVertices(uniqueCosts, 


(id: VertexID, oldCost: Double, extraCost: Double) => oldCost + extraCost) 


在 上 面 的 例子 中 用 
f(a,b) 意 味 着 b 的 类 型 


4. 近邻 聚合 


图 分 析 任 务 的 一 个 关键 步 又 是 汇总 每 个 顶点 附近 的 信息 。 例 如 当 要 对 


到 了 柯 里 化 函数 的 多 参 列表 。 虽 然 可 以 将 f(a)(b) 写 成 f(a,b)， 但 是 
E 赃 ?将 不 会 依赖 于 a。 因此， 用 户 需要 为 定义 的 函数 提供 类 型 标注 。 


与 


量 或 者 追随 者 的 信息 进行 分 析 时 ， 可 以 使 用 和 妈 代 算法 获得 
息 ， 分 析 并 得 到 结果 。 


\ 记 


] 户 的 追随 者 的 数 
] 户 为 追随 关系 的 相 邻 用 户 信 


许多 迭代 的 图 算法 〈 如 PageRank， 最 短路 径 和 连通 体 算 法 ) 主要 通过 多 次 聚合 相 邻 顶 


点 的 属性 进行 计算 


。 为 了 提高 性 能 ， 主 要 的 聚合 操作 从 graph.mapReduceTriplets 改 为 了 新 的 


graph.Aggregate Messages。 下 面 将 会 介绍 如 何 利用 官方 提供 的 API 进行 相 邻 聚合 操作 。 虽 然 


API 的 改变 相对 较 小 ， 但 是 官方 仍然 提供 了 API 过 渡 指 南 。 


(1) 聚合 信息 


Spark 中 的 核心 聚合 操作 是 aggregateMessages， 这 个 操作 符 适 


于 用 户 在 图 


对 每 一 个 
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edge triplet 定义 sendMsg 函数 ， 然 后 使 用 mergeMsg 函数 在 


【 例 4-25】 聚合 操作 示例 。 


class Graph[VD, ED] { 


def aggregateMessages[Msg: ClassTag]( 
sendMsg: EdgeContext[VD, ED, Msg] => Unit, 
mergeMsg: (Msg, Msg) => Msg, 
tripletFields: TripletFields = TripletFields.All) 


: VertexRDD[Msg] 
} 


性 、 


息 。 可 以 将 sendMsg 看 作 map-reduce 中 的 map 函数 ， 


用 户 定义 sendMsg 函数 接收 一 个 EdgeContext，EdgeContext 中 
边 的 属性 以 及 函数 〈sendToSrc 和 sendToDst)， 从 而 可 以 向 消息 源 和 


j 户 定义 


目的 地 项 点 聚集 这 些 消 息 。 


包含 了 源 和 目标 顶点 的 属 
目标 属性 发 送 消 
mergeMsg 函数 ， 将 两 个 不 


pa 


同 的 消息 合并 为 一 个 消息 。 可 以 将 mergeMsg 看 作 map-reduce 中 的 reduce 函数 ， 
aggregateMessages 操作 符 返 回 包含 每 个 顶点 的 聚合 消息 的 Vertex 


消息 的 顶点 不 包括 在 返 


器 的 VertexRDD 中 。 


RDD[Msg]。 没 有 收 到 一 条 


此 外 ，aggregateMessages 需要 一 个 可 选 的 tripletsFields 显示 在 EdgeContext 中 ， 说 明 访 
问 什 么 数据 〔 即 源 顶 点 属性 而 不 是 目的 地 顶点 属性 )。tripletsFields 可 以 从 TripletsFields 的 定 
义 中 选择 值 ， 默 认 值 是 TripletsFields 。sendMsg 函数 定义 意味 着 用 户 可 以 访问 任何 


EdgeContext 


段 ， 所 以 会 使 


字段 。tripletFields 参数 可 以 
GraphX 选择 一 个 优化 的 连接 策略 。 例 如 计算 


] TripletFields。 需 要 注意 的 是 ， 


口 


-Ny 


] 来 通知 GraphX， 


断 TripletFields， 然 而 我 们 发 现 字 节 码 检查 不 可 靠 ， 


于 是 选择 了 更 明确 


每 个 用 户 的 追随 者 的 平均 年 龄 ， 
在 GraphX 的 早期 版 本 中 使 用 字 节 代码 检查 来 推 


有 部 分 EdgeContext 需要 
只 需要 源 字 


的 用 户 控 件 。【 例 4-26】 使 


| aggregateMessages 操作 符 来 计算 比 
【 例 4-26】 


] 户 年 纪 更 大 的 追随 者 的 平 ] 
计算 追随 者 平均 年 龄 的 代码 示例 。 


import org.apache.spark.graphx.util.GraphGenerators 


/ 为 了 简化 使 用 ， 这 旦 
val graph: Graph[Double, Int] = 


创建 一 个 以 “age” 为 顶点 属性 的 随机 


踢 


的 年 龄 。 


GraphGenerators.JogNormalGraph(sc, numVertices = 100).map Vertices( (id, _) => id.toDouble ) 
/ 计算 年 长 追随 者 的 人 数 和 他 们 年 龄 的 总 和 
val olderFollowers: VertexRDDI[(nt Double)] = graph.aggregateMessages[(nt Double)]( 


triplet => { / Map Function 


if (triplet.srcAttr > triplet.dstAttr) { 


/ 发 送 消 息 包含 计数 器 和 年 龄 的 目 


标 项 点 


triplet.sendToDst(1, triplet.srcAttr) 


} 
}， 
/ 添加 计数 器 和 年 龄 


(a, b) => (a._1 +b._1,a. 2+b.2)//Reduce 函数 


) 


/ 总 岁数 除 以 年 长 奶 随 者 人 数 得 到 长 奶 随 者 的 3 


I 


val avgAgeOfOlderFollowers: VertexRDDI[IDouble] = 
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olderFollowers.map Values( (id, value) => value match { case (count, totalAge) => totalAge / count } ) 
/ 结果 展示 
avgAgeOfOlderFollowers.collect.foreach(println(_)) 


(2) Map Reduce 三 元 组 过 度 指南 
在 之 前 版 本 的 GraphX 中 ， 利 用 mapReduceTriplets 操作 完成 相 邻 聚合 ， 代 人 码 如 下 。 


class Graph[VD, ED] { 
def mapReduceTriplets[Msg]( 
map: EdgeTriplet[VD, ED] => Iterator[(VertexId, Msg)]， 
reduce: (Msg, Msg) => Msg) 
: VertexRDD[Mseg] 
} 


mapReduceTriplets 操作 在 每 个 三 元 组 上 应 用 用 户 定义 的 map 函数 ， 然 后 保存 用 户 定义 
的 reduce 函数 聚合 的 消息 。 然 而 ， 发 现 通过 用 户 返 回 的 迭代 器 有 较 大 不 足 ， 它 抑制 了 添加 额 
外 优化 (例如 本 地 顶点 的 重新 编号 〉 的 能 力 。aggregateMessages 坊 Unit,(A,A) 坟 A,TripletFields) 
(ClassTag[A]):VertexRDD[A]) 暴 露 三 元 组 字段 和 函数 显示 的 发 送 消息 到 源 和 目的 项 点。 并 
且 ， 删 除了 字 节 码 检测 转 而 需要 用 户 指明 三 元 组 的 哪些 字段 实际 需要 。 

下 面 将 介绍 如 何在 代码 中 应 用 mapReduceTriplets 和 aggregateMessages。 

代码 用 到 了 mapReduceTriplets: 


re BA 


val graph: Graph[Int, Float] = ... 

def msgFun(triplet: Triplet[Int Float]): Iterator[(Int, String)] = { 
Iterator((triplet.dstId, "Hi")) 

} 

def reduceFun(a: String, b: String): String=a+""+b 

val result = graph.mapReduceTriplets[String](msgFun, reduceFun) 


代码 用 到 了 aggregateMessages: 


val graph: Graph[Int, Float] = ... 

def msgFun(triplet: EdgeContext[Int, Float, String]) { 
triplet.sendToDst("Hi") 

} 


def reduceFun(a: String, b: String): String=a+""+b 
val result = graph.aggregateMessages[String](msgFun, reduceFun) 


(3) 计算 度 信息 
一 般 的 聚合 任务 就 是 计算 顶点 的 度 ， 即 每 个 顶点 相 邻 边 的 数量 。 在 有 向 图 中 ， 经 常 需要 
知道 顶点 的 入 度 、 出 度 以 及 总 度 。GraphOps 类 包含 一 个 操作 集合 用 来 计算 每 个 顶点 的 度 。 
例如 ,【 例 4-27】 为 计算 最 大 的 入 度 、 出 度 和 总 度 的 代码 示例 。 
【 例 4-27】 计算 度 信息 的 代码 示例 。 
/ 定义 reduce 函数 来 计算 最 大 入 度 顶 点 
def max(a: (VertexId, Inb, b: (VertexId, Int)): (VertexId, Int) = { 
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if (a. 2>b. 2)aelseb 


} 


/ 计算 最 大 度 


val maxInDegree: (VertexId, Inb = graph.inDegrees.reduce(max) 


val maxOutDegree: (VertexId, Int) = graph.outDegrees.reduce(max) 


val maxDegrees: (VertexId, Inb ”= graph.degrees.reduce(max) 


(4) 近邻 收集 
在 菜 些 情况 下 ， 通 过 


过 收集 每 个 顶点 相 邻 的 顶点 及 它们 的 属性 来 表达 计算 可 能 更 容易 。 这 


可 以 通过 collectNeighborlds:VertexRDD[Array[VertexId]]) 和 collectNeighbors:VertexRDD 
[Array[(VertexId,VD)]]) 操 作 来 简单 地 完成 。 代 码 如 下 。 


class GraphOps[VD, ED] { 
def collectNeighborIds(edgeDirection: EdgeDirection): VertexRDDI[Array[ VertexId]|] 
def collectNeighbors(edgeDirection: EdgeDirection): VertexRDDI[{ Array[(VertexId, VD)] ] 


} 


这 些 操作 的 代价 是 相当 昂贵 的 ， 因 为 操作 过 程 中 需要 大 量 而 重复 的 通信 。 如 果 可 能 ， 尽 


地 


5. 缓存 


] aggregateMessages 操作 直接 表达 相同 的 计算 。 


在 Spark 中 ，RDD 默认 是 不 缓存 的 。 为 了 避免 重复 计算 ， 当 需要 多 次 利用 它们 时 ， 则 必 
须 显示 地 缓存 它们 ，GraphX 中 的 图 也 为 相同 的 方式 。 当 多 次 利用 到 图 时 ， 应 确保 首先 访问 


Graph.cache() 方 法 。 


在 和 欠 代 计算 中 ， 为 了 获得 最 佳 的 性 能 ， 不 建议 进行 缓 在。 默认 情 况 下 ， 缓 存 的 RDD 和 


图 会 一 直 保留 在 内 存 中 ， 


直到 因为 内 存 压 力 据 使 它们 以 LRU 的 顺序 删除 。 对 于 迭代 计算 ， 


先前 的 迭代 的 中 间 结 果 将 填充 到 缓存 中 。 虽 然 它 们 最 终 会 被 删除 ， 但 是 保存 在 内 存 中 的 不 需 
要 的 数据 将 会 减 慢 垃 圾 回收 。 只 有 中 间 结 果 不 需要 ， 不 缓存 它们 更 高 效 。 这 涉及 在 每 次 迭代 
中 物化 (“物化 ”表示 把 RDD 存 磁 盘 中 ) 一 个 图 或 者 RDD 而 不 缓存 所 有 其 他 的 数据 集 。 在 


将 来 的 迭代 中 仅 ) 


物化 的 数据 集 。 然 而 ， 因 为 图 是 
较 困 难 ， 故 对 于 迭代 计算 ， 建 议 使 用 PregelAPI， 它 可 以 正确 的 不 持久 化 中 间 结 果 。 


4.3.4 Pregel API 


图 本 身 是 递归 数据 结构 ， 顶 点 的 属性 依赖 于 邻居 的 属性 ， 这 些 邻 居 的 属性 又 依赖 于 自己 


邻居 的 属性 。 所 以 许多 重要 的 图 算法 都 是 太 代 地 重新 计算 每 个 顶点 的 属性 ， 直 到 满足 某 个 确 


多 个 RDD 组 成 的 ， 要 正确 的 不 缓存 它们 比 


定 的 条 件 。 一 系列 的 graph-parallel 抽象 已 经 被 提出 来 用 以 表达 这 些 迭 代 算 法 。GraphX 公开 
了 一 个 类 似 Pregel 的 操作 ， 它 是 广泛 使 用 的 Pregel 和 GraphLab 抽象 的 融合 。 


在 GraphX 上 
Synchronous ) 并 行 
中 ， 顶 点 从 之 前 的 


PF， 更 高 级 的 Pregel 操作 是 一 个 约束 到 图 拓扑 的 批量 同步 lk: 
消息 
四 级 步 又 中 接收 进入 消息 的 总 和 ， 为 顶点 属性 计算 一 个 新 的 值 ， 然后 在 以 后 


由 象 。Pregel 操作 执行 一 系列 的 超级 步骤 〈super steps)， 在 这 些 步 


的 超级 步骤 中 发 送 消息 到 邻居 顶点 。 不 像 Pregel 而 更 像 GraphLab， 消 息 作 为 一 个 边 的 三 元 组 函 


数 被 并 行 计算 ， 消 
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县 计 


上 


算 既 访问 了 源 顶 点 特征 也 访问 了 目的 顶点 特征 。 在 超级 步骤 中 ， 没 有 收 
到 消息 的 顶点 被 跳 过 ， 当 没有 消息 遗留 时 ，Pregel 操作 停止 迭代 并 返回 最 终 的 图 。 


需要 注意 的 是 ， 与 标准 的 Pregel 实现 方法 不 同 ，GraphX 中 的 顶点 仅仅 能 发 送信 息 给 邻 


居 顶 点 ， 并 利用 用 户 自 定义 的 消息 函数 构造 消息 。 这 些 限 制 允许 在 GraphX 进 


行 额外 的 优 


化 。 以 下 是 Pregel 操作 ((VertexIld, VD， A)3VD， (EdgeTripletfVD ， ED]) 坟 Tterator 
[(VertexId，A)]，(A，A)=:A)(ClassTag[A]):Graph[VD，ED]) 的 类 型 签名 以 及 实现 示例 。 


【 例 4-28】 Pregel 操作 示例 。 


class GraphOps[VD, ED] { 
def pregel[A] 
(initialMsg: A， 
maxJIter: Int = Int.MaxValue, 
activeDir: EdgeDirection = EdgeDirection.Out) 
(vprog: (VertexId, VD, A) => VD， 
sendMsg: EdgeTriplet[VD, ED] => Iterator[(VertexId, A)], 
mergeMseg: (A, A) => A) 
: Graph[VD, ED] = { 
/ 在 每 一 个 顶点 接收 初始 消息 
var g = map Vertices( (vid, vdata) => vprog(vid, vdata, initialMsg) ).cache() 
/ 计算 消息 


var messages = g.mapReduceTriplets(sendMsg, mergeMsg) 


Var activeMessages = messages.count() 
/ 循环 直到 循环 结束 或 没有 剩余 的 消息 


vari=0 


全 


while (activeMessages > 0 &&i< maxIterations) { 
/ 接收 消息 ， 在 所 有 顶点 运行 接收 消息 的 项 点 程序 
val newVerts = g.vertices.innerJoin(messages)(vprog).cache() 


/ 把 新 顶点 值 合并 回 图 中 


g = g.outerJoinVertices(newVerts) { (vid, old, newOpb => newOptgetOIElse(old) }.cacheO 


1/ 发送 消息 


messages = g.mapReduceTriplets(sendMsg, mergeMsg, Some((newVerts, activeDir))).cache() 


activeMessages = messages.count() 
i+=1 
} 
8 
} 
} 


pregel 有 两 个 参数 列表 例如 graph.pregel(listl)(list2)。 第 一 个 参数 列表 包含 配置 参数 初始 
消息 、 最 大 友 代 数 、 发 送 消息 的 边 的 方向 〈 默 认 是 沿 out 边 )。 第 二 个 参数 列表 包含 用 户 自 


定义 的 函数 用 来 接收 消息 〈vprog)、 计 算 消 息 〈sendMsg)、 合 并 消息 CmergeMsg)。 可 以 用 


Pregel 操作 表达 计算 ， 如 【 例 4-29】 所 示 的 单 源 最 短路 径 。 
【 例 4-29】 Pregel 计算 单 源 最 短路 径 。 
import org.apache.spark.graphx._ 


/ 导入 随机 生成 库 


import org.apache.spark.graphx.util.GraphGenerators 
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/ 边 属 性 包含 距离 的 图 
val graph: Graph[Int Double] = 
GraphGenerators.JogNormalGraph(sc, numVertices = 100).mapEdges(e => e.attr.toDouble) 
val sourceld: VertexId = 42 
/ 初始 化 图 ， 所 有 节点 中 只 有 根 节点 的 距离 属性 为 无 穷 
val initialGraph = graph.map Vertices((id, _) => if (id = = sourceld) 0.0 else Double.PositiveInfinity) 
val sssp = initialGraph.pregel(Double.PositiveInfinity)( 
(id, dist, newDisb => math.min(dist, newDist), // 顶点 程序 
triplet => { V 发 送 消 息 
if (triplet.srcAttr + triplet.attr < triplet.dstAttr) { 
Iterator((triplet.dstId, triplet.srcAttr + triplet.attr)) 
} else { 
Iterator.empty 
} 
}, 
(ab) => math.min(a,b) / Merge Message 
) 
println(sssp.vertices.collect.mkString("\n")) 


4.3.5 ”图 构造 絮 


GraphX 提供 了 几 种 方式 从 RDD 或 者 磁盘 上 的 顶点 和 边 集 合 构 造 图 。 默 认 情 况 下 ， 没 有 
哪个 图 构造 者 为 图 的 边 重新 分 区 ， 而 是 把 边 保留 在 默认 的 分 区 中 《例如 HDFS 中 的 原始 
块 )。Graph.groupEdges 坟 ED):Graph[VD,ED]) 需要 重新 分 区 图 ， 因 为 它 假定 相同 的 边 将 会 被 
分 配 到 同一 个 分 区 ， 所 以 必须 在 调用 groupEdges 之 前 调用 Graph.partitionBy:Graph 
[VD,ED])。 代 码 如 【 例 4-30】 所 示 。 

【 例 4-30】 图 的 构造 。 


object GraphLoader { 
def edgeListFile( 
sc: SparkContext, 
path: String, 
canonicalOrientation: Boolean = false, 
minEdgePartitions: Int = 1) 
: Graph[Int, Int] 
} 


GraphLoader.edgeListFile:Graph[Int,Int]) 提供 了 一 个 方式 ， 从 磁盘 上 的 边 列表 中 加 载 
一 个 图 。 它 解析 如 下 形式 〈 源 顶点 ID， 上 有 目标 顶点 了 ) 的 连接 表 ， 跳 过 以 “#” 开 头 的 注 
释 行 。 


#This is a comment 
21 
41 
12 
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GraphLoaderedgeListFile:Graph[Int,Intj 从 指定 的 边 创建 一 个 图 ， 自 动 地 创建 边 提 及 的 所 
有 顶点。 所 有 的 顶点 和 边 的 属性 默认 都 是 1。canonicalOrientation 参数 允许 重 定 向 正方 向 
( 即 源 顶 点 ID 小 于 目标 顶点 也) 的 边 ， 这 在 connected components 算法 中 需要 用 到 。 
minEdgePartitions 参数 指定 生成 的 边 分 区 的 最 少数 量 。 边 分 区 可 能 比 指定 的 分 区 更 多 ， 例 
如 ， 一 个 HDFS 文件 包含 更 多 的 块 。 

【 例 4-31】 minEdgePartitions 应 用 示例 。 


object Graph { 
def apply[VD, EDI]( 
vertices: RDD[(VertexId, VD)], 
edges: RDD[Edge[ED]), 
defaultVertexAttr: VD = null) 
: Graph[VD, ED] 
def fromEdges[VD, EDI]( 
edges: RDD[Edge[ED]], 
defaultValue: VD): Graph[VD, ED] 
def fromEdgeTuples[VDI]( 
rawEdges: RDD[(VertexId, VertexId)]， 
defaultValue: VD， 
uniqueEdges: Option[PartitionStrategy] = None): Graph[VD, Int] 
} 


Graph.apply[VD,ED],RDDI[Edge[ED]],VD)(ClassTag[VD],ClassTag[ED]):Graph[VD,ED]) 人 允 
午 从 顶点 和 边 的 RDD 上 创建 一 个 图 。 重 复 的 顶点 可 以 任意 地 选择 其 中 一 个 ， 在 边 RDD 中 而 
不 是 在 顶点 RDD 中 发 现 的 顶点 分 配 默认 的 属性 。 

Graph.fromEdges(ClassTag[VD],ClassTag[ED]):Graph[VD,ED]) 允许 仅仅 从 一 个 边 RDD 
上 创建 一 个 图 ， 它 自动 地 创建 边 包 含 的 顶点 ， 并 为 这 些 顶 点 分 配 默认 的 值 。 

Graph.fromEdgeTuples],VD,Option[PartitionStrategy])(ClassTag[VD]):Graph[VD,Int]) 允许 仅仅 
从 一 个 边 元 组 组 成 的 RDD 上 创建 一 个 图 ， 分 配给 边 的 值 为 1。 它 自动 地 创建 边 包 含 的 顶点 ， 并 
为 这 些 顶点 分 配 默认 的 值 。 它 还 支持 删除 边 ， 为 了 删除 边 ， 需 要 传递 一 个 以 PartitionStrategy 为 
参数 的 Some 函数 作为 uniqueEdges 参数 例如 “uniqueEdges = Some (PartitionStrategy.Random 
VertexCub”。 为 了 将 相同 的 边 分 配 到 同一 个 分 区 ， 从 而 使 它们 可 以 被 删除 ， 必 须 需 要 有 一 个 分 区 
策略 。 


4.3.6 ”顶点 与 边 相 关 RDD 


GraphX 显示 了 保存 在 图 中 的 顶点 和 边 的 RDD。 然 而 ， 因 为 GraphX 包含 的 顶点 和 边 拥 
有 优化 的 数据 结构 ， 这 些 数 据 结构 提供 了 额外 的 功能 ， 所 以 顶点 和 边 分 别 返回 VertexRDD 和 
EdgeRDD。 

1. VertexRDD 

VertexRDDI[A] 继 承 自 RDD[(VertexID，A)] ， 并 且 添 加 了 额外 的 限制 ， 那 就 是 每 个 
VertexID 只 能 出 现 一 次 。 此 外 ，VertexRDDI[A] 代 表 了 一 组 属性 类 型 为 A 的 顶点 。 在 内 部 ， 是 
通过 保存 顶点 属性 到 一 个 可 重复 使 用 的 hash-map 数据 结构 来 获得 的 。 所 以 如 果 两 个 


上 由 


en 


pa 
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VertexRDD 从 相同 的 基本 VertexRDD 获得 (如 通过 filter 或 者 mapValues)， 它 们 能 够 在 固定 
的 时 间 内 连接 而 不 需要 hash 评价 。 为 了 利用 这 个 索引 数据 结构 ，VertexRDD 提供 了 以 下 附 
加 的 功能 ， 如 【 例 4-32】 所 示 。 

【 例 4-32】 VertexRDD 的 附加 功能 示例 。 


class VertexRDD[VD] extends RDDI[(VertexID, VD)] { 
/ 过滤 顶点 集 ， 但 保留 内 部 索引 
def filter(pred: Tuple2[VertexId, VD] => Boolean): VertexRDDI[VD] 
/ 不 改变 ids 来 转换 值 〈 保 留 内 部 索引 ) 
def mapValues[VD2](map: VD => VD2): VertexRDD[VD2] 
def mapValues[VD2](map: (VertexId, VD) => VD2): VertexRDD[VD2] 
/ 显示 这 个 集合 中 没有 重复 的 顶点 
def minus(other: RDD[(CVertexId, VD)]) 
/ 移 除 这 个 集合 中 和 其 他 集合 中 都 出 现 的 项 点 
def diff(other: VertexRDD[VD]): VertexRDDI[VD] 
/ 利用 内 部 索引 来 加 速 连接 的 join 操作 
def leftJoin[VD2, VD3](other: RDDI[(VertexId, VD2)])(f: (VertexId, VD, Option[YVD2]) => VD3): 
VertexRDD[VD3] 
def innerJoin[U, VD2](other: RDD[(VertexId, U)])(f: (VertexId, VD, U) => VD2): VertexRDD[VD2] 
/ 对 输入 RDD 使 用 索引 来 加 速 “reduceByKey” 操 作 
def aggregateUsingIndex[VD2](other: RDD[(VertexId，VD2)], reduceFunc: (VD2, VD2) => VD2): 
VertexRDD[VD2] 
} 


举 个 例子 ，filter 操作 如 何 返 回 一 个 VertexRDD。 过 滤器 实际 使 用 一 个 BitSet 实现 ， 因 此 
它 能 够 重用 索引 以 及 保留 和 其 他 VertexRDD 进行 连接 时 速度 快 的 能 力 。 同 样 mapValues 操作 
不 允许 map 函数 改变 VertexID， 因 此 可 以 保证 相同 的 HashMap 数据 结构 能 够 重用 。 当 连接 
两 个 从 相同 的 hashmap 获取 的 VertexRDDs 和 使 用 线性 扫描 而 不 是 昂贵 的 点 查找 实现 连接 操 
作 时 ，lefUoin 和 innerJoin 都 能 够 使 

从 RDD[(CVertexID， Aj] 高 效 地 构建 一 个 新 的 VertexRDD，aggregateUsingIndex 操作 是 有 
的 。 概 念 上 ， 如 果 通 过 一 组 顶点 构造 了 一 个 VertexRDD[B]， 而 VertexRDD[IB] 是 一 些 
RDD[(VertexID, A)] 中 顶点 的 超 集 ， 那 么 就 可 以 在 聚合 以 及 随后 索引 RDD[(VertexID，A)] 中 习 
] 索 引 ， 如 【 例 4-33】 所 示 。 

【 例 4-33】 RDD[(VertexID, A)] 重 用 索引 示例 。 


晤 


val setA: VertexRDDIInt] = VertexRDD(sc.parallelize(OL until 100L).map(id => (id, 1))) 

val rddB: RDDI[(VertexId, Double)] = sc.parallelize(OL until 100L).flatMap(id => List((id, 1.0), (id, 2.0))) 
/ 在 rddB 中 应 该 有 200 个 entry 

rddB.count 

val setB: VertexRDD[Double] = setA.aggregateUsingIndex(rddB， + _) 

/ 在 setB 中 应 该 有 100 个 entry 

setB.count 

// 现在 Ajoin B 会 变 快 
val setC: VertexRDD[Double] = setA.innerJoin(setB)((id, a, b) => a +b) 
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2. EdgeRDD 
EdgeRDD[ED] 继 承 自 RDD[Edge[ED]]， 使 用 定义 在 PartitionStrategy 的 各 种 分 区 策略 中 
的 一 个 在 块 分 区 中 组 织 边 。 在 每 个 分 区 中 ， 边 属性 和 相 邻 结构 被 分 别 保存 ， 这 能 使 当 属 性 值 
改变 时 ， 它 们 可 以 最 大 化 的 重用 
EdgeRDD 展示 了 3 个 额外 的 函数 ， 代 码 如 下 。 
/ 当 保存 这 个 结构 的 时 候 转 换 边 的 属性 
def mapValues[ED2](f: Edge[ED] => ED2): EdgeRDDI[IED2] 
/ 反 转 边 ， 重 复 使 用 属性 和 结构 
def reverse: EdgeRDDI[ED] 
/ 使 用 相同 的 分 区 策略 来 join 两 个 边 RDD 
def innerJoin[ED2，ED3](other: EdgeRDDI[IED2])( 人 (YertexId， VertexId，ED，ED2) => ED3): 
EdgeRDD[ED3] 


在 大 多 数 的 应 用 中 ，EdgeRDD 操作 可 以 通过 图 操作 者 或 者 定义 在 基本 RDD 中 的 操作 来 
完成 。 
4.3.7 ”最 优化 表示 


Spark GraphX 是 基于 Spark 的 ， 那 么 GraphX 如 何 进行 图 计算 呢 ? 就 是 进行 图 的 分 割 。 
分 制 有 两 种 方式 ， 一 种 是 对 边 进行 分 割 (Edge Cut)， 另 一 种 是 对 点 进行 分 制 〈Vertex cut)。 
GraphX 采用 点 分 割 的 方法 对 分 布 式 图 进行 分 区 。 两 种 分 割 方式 如 图 4-9 所 示 。 


o 


Edge Cut Vertex Cut 


图 4-9 分 区 示意 


以 点 分 割 的 方式 进行 图 的 分 割 ， 既 可 以 减少 通信 开销 ， 也 可 以 减少 存储 开销 。 逻 辑 上 来 
说 ， 就 是 将 边 分 到 一 台 机 器 上 进行 存储 ， 而 点 被 多 台 机 器 存储 。 精 确 的 分 配 边 的 方法 取决 于 
分 配 策略 ， 而 且 可 以 多 次 试探 之 后 权衡 策略 ， 从 而 选 出 最 适合 自己 的 分 配 策略 。 用 户 可 以 在 
Graph.partitionBy 函数 中 选取 不 同 的 图 分 割 策略 。 在 构建 图 的 同时 会 默认 选择 初始 化 边 的 分 
区 策略 。 尽 管 如 此 ， 用 户 可 以 很 方便 地 在 GraphX 中 将 分 割 策略 改 为 2D 分 割 或 者 其 他 的 分 
割 方式 。 

一 且 边 被 分 割 ， 那 么 提高 分 布 式 图 计算 效率 的 关键 就 是 如 何 将 点 的 属性 存储 到 边 所 在 的 
机 器 上 。 因 为 在 真实 的 情况 下 ， 边 一 般 会 比 点 的 数量 更 多 ， 所 以 我 们 采用 的 方式 是 将 点 的 属 
性 加 到 边 上 。 因 为 不 是 所 有 的 划分 都 会 包含 边 和 边 所 相 邻 的 所 有 点 ， 所 以 我 们 在 内 部 维护 一 
个 路 由 表 ， 当 进行 triplets 和 mapReduceTriplets 这 些 join 操作 时 ， 可 以 很 方便 地 确定 点 在 哪 
一 个 划分 中 出 现 。 路 由 表 的 具体 表示 如 图 4-10 所 示 。 


a 


Poa 
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Vertex Table Routing Edge Table 
Property Graph (RDD) Table (RDD) 
(RDD) 


图 4-10 ”路 由 表 


4.3.8 图 算法 


GraphX 包括 一 组 图 算法 来 简化 分 析 任 务 ， 这 些 算法 包含 在 org.apache.spark.graphx.lib 包 
中 ， 可 以 直接 访问 。 下 面 对 GraphX 中 已 经 实现 的 算法 进行 说 明 。 

1. PageRank 

PageRank 度量 一 个 图 中 每 个 顶点 的 重要 程度 ， 其 中 假定 从 u 到 v 的 一 条 边 代 表 v 的 重 
要 性 标签 。 例 如 ， 一 个 Twitter 用 户 被 许多 其 他 人 添加 关注 ， 则 该 用 户 排名 很 高 。GraphX 带 
有 静态 和 动态 PageRank 的 实现 方法 ， 这 些 方法 在 PageRank object 中。 静态 的 PageRank 运行 
固定 次 数 的 迭代 ， 而 动态 的 PageRank 一 直 运 行 ， 直 到 收敛 。GraphOps 允 许 直接 调用 这 些 仿 
法 作为 图 运算 的 方法 。 

GraphX 包含 一 个 可 以 运行 PageRank 的 社交 网 络 数 据 集 的 例子 ， 用 户 集 在 
graphx/data/users.txt 中 ， 用 户 之 间 的 关系 在 graphx/data/followers.txt 中 。 通 过 下 面 的 方法 计算 
每 个 用 户 的 PageRank， 如 【 例 4-34】 所 示 。 

【 例 4-34】 PageRank 算法 示例 。 


/ 加载 图 的 边 
val graph = GraphLoader.edgeListFile(sc, "graphx/data/followers.txt") 
/ 运行 PageRank 
val ranks = graph.pageRank(0.0001).vertices 
/ 使 用 username 来 连接 排名 
val users = sc.textFile("graphx/data/users.txt").map { line => 
val fields = line.split(",") 
(fields(0).toLong, fields(1)) 
} 


val ranksByUsername = users.join(ranks).map { 


case (id, (username, rank)) => (username, rank) 
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} 
/ 打印 结果 
println(ranksByUsername.collect().mkString("\n")) 


2. 连通 分 支 
连通 体 算法 用 ID 标注 图 中 的 每 个 连通 体 ， 将 连通 体 中 序号 最 小 的 顶点 的 ID 作为 连通 体 


的 了 中。 例如 ， 在 社交 网 络 中 连通 体 可 以 近似 为 集群 。GraphX 在 connectedComponents object 中 
包含 了 一 个 算法 的 实现 ， 可 以 通过 下 面 的 方法 计算 社交 网 络 数据 集中 的 连通 体 ， 如 【 例 4-35】 


所 示 。 


【 例 4-35】 连通 体 算法 示例 。 


Wn 


// 跟 PageRank 一 样 加 载 图 数据 
val graph = GraphLoader.edgeListFile(sc, "graphx/data/followers.txt") 
// 找到 联通 体 
val cc = graph.connectedComponents().vertices 
/ 根据 username 连接 联通 体 
val users = sc.textFile("graphx/data/users.txt").map { line => 
val fields = line.split(",") 
(fields(0).toLong, fields(1)) 
} 
val ccByUsername = users.join(cc).map { 


case (jd, (username, cc)) => (username, cc) 


打印 结果 
println(ccByUsername.collectO.mkString("\n")) 
3. 三 角 计 数 
一 个 顶点 有 两 个 相 邻 的 顶点 以 及 相 邻 顶点 之 间 的 边 时 ， 这 个 顶点 是 一 个 三 角形 的 一 部 
分 。GraphX 在 TriangleCount object 中 实现 了 一 个 三 角形 计数 算法 ， 它 计算 通过 每 个 顶点 的 
三 角形 的 数量 。 需 要 注意 的 是 ， 在 计算 社交 网 络 数据 集 的 三 角形 计数 时 ，TriangleCount 需要 边 
的 方向 是 规范 的 方向 《 即 源 顶点 了 D 小 于 目标 顶点 DD)， 并 且 图 通过 Graph.partitionBy 来 分 片 。 
【 例 4-36】 三 角形 计数 算法 示例 。 


VertexCut) 


/ 以 规范 顺序 加 载 边 信息 ， 同 时 划分 图 计算 三 角 个 数 
val graph = GraphLoader.edgeListFile(sc, "graphx/data/followers.txt", true).partitionBy(PartitionStrategy.Random 


/ 找到 每 个 顶点 的 三 角 个 数 

val triCounts = graph.triangleCount().vertices 

/ 根据 username 来 连接 三 角 计数 结果 

val users = sc.textFile("graphx/data/users.txt").map { line => 


val fields = line.split(",") 
(fields(0).toLong, fields(1)) 
} 


val triCountByUsername = users.join(triCounts).map { case (id, (username, tc)) => 


(username, tc) 
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} 
/ 打印 结果 
println(triCountByUsername.collect().mkString("\n")) 


4.3.9 FExample 


假设 要 从 一 些 文本 文件 中 构建 一 张 图 ， 图 中 信息 限制 为 重要 关系 和 用 户 ， 使 ) 
EE 要 性 最 高 的 用 户 名 单 ， 代 码 如 【 例 4-37】 所 示 。 


PageRank 和 sub-graph 算法 ， 最 后 返回 
【 例 4-37】 GraphX 例子 。 


IN 


/ 连接 Spark 大 集群 
val sc = new SparkContext("spark://master.amplab.org", "research") 

/ 加 载 用 户 数据 ， 然 后 把 数据 解析 为 用 户 id 和 属性 列表 的 元 祖 

val users = (sc.textFile("graphx/data/users.txt") 

.map(line => line.split(",")).map( parts => (parts.head.toLong, parts.tail) )) 
// 解 析 已 经 是 userId -> userId 格式 的 边 信 息 
val followerGraph = GraphLoader.edgeListFile(sc, "graphx/data/followers.txt") 
1/ 附 上 用 户 属性 
val graph = followerGraph.outerJoin Vertices(users) { 

case (uid, deg, Some(attrList)) => attrList 

case (uid, deg, None) => Array.empty[String] 

} 

/ 通过 用 户 的 username 和 name 来 限制 图 

val subgraph = graph.subgraph(vpred = (vid, attr) => attr.size = = 2) 

/ 计算 PageRank 

val pagerankGraph = subgraph.pageRank(0.001) 

// 获得 top pagerank 用 户 的 属性 

val userInfoWithPageRank = subgraph.outerJoin Vertices(pagerankGraph.vertices) { 
case (uid, attrList Some(pr)) => (pr, attrList.toList) 

case (uid, attrList, None) => (0.0, attrList.toList) 

} 
println(userInfoWithPageRank.vertices.top(5)(Ordering.by(_._2._1)).mkString("\n")) 


4.4 Spark MI 四 


到 


MLlib 是 Spark 对 常用 的 机 器 学 习 算法 的 实现 库 ， 同 时 包括 相关 的 测试 和 数据 生成 器 。 
MLlib 目前 文 持 4 种 篆 见 的 机 器 学 习 问 题 : 二 元 分 类 、 回 归 、 聚 类 以 及 协同 过 滤 ， 同 时 也 包 


应 的 调用 MLlib 的 例子 。 
4.4.1 Spark MLlib 简介 
MLlib 是 Apache Spark 的 机 器 学 习 库 ， 由 常用 的 机 器 学 习 算法 和 工具 组 成 。 


括 一 个 底层 的 梯度 下 降 优化 基础 算法 。 本 书 将 简要 介绍 MLlib 中 所 支持 的 功能 ， 并 给 出 相 


蒜 实 现 的 算 


法 如 表 4-11 所 示 。 
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表 4-11 MLlib 的 实现 算法 


通用 算法 具体 算法 
分 类 和 回归 线性 模型 ， 决 策 树 ， 朴 素 贝 叶 斯 
协同 过 滤 交 蔡 最 小 二 乘法 (ALS ) 
聚 类 K-means 聚 类 
降 维 奇异 值 分 解 (SVD) ， 主 成 分 分 析 (PCA) 
特征 提取 与 转换 TF-IDF，Word2Vec， 特 征 标准 化 
频繁 模式 挖掘 FP-growth 
最 优化 算法 梯度 下 降 ， 随 机 梯度 下 降 ，L-BFGS 
优化 方法 包括 随机 梯度 下 降 算 法 和 有 限 内 存 BFGS 算法 (L-BFGS)， 因 为 MLlib 处 于 开 
发 阶段 ， 含 有 Experimental/DeveloperApi 标记 的 API 会 在 未 来 版 本 中 被 调整 ， 后 文中 的 移植 
指导 将 解释 发 布 版 本 之 间 的 差异 。 
MLlib 使 用 了 线性 代数 包 Breeze，Breeze 依赖 于 netlib-java 和 jblas。 而 netlib-java 和 


jblas 又 依赖 于 原生 的 Fortan 执行 
不 到 上 面 这 些 库 ， 就 会 提示 一 个 链 


次 是 源码 鹿 
若 找 不 到 原生 库 ， 
为 了 使 | 


接 


F 可 协议 问题 ， 默 认 配 置 未 添加 MLlib 
则 会 收 到 一 个 警告 信息 。 
请 加 


j netlib-java 的 原生 库 ， 


目 中 添加 com.github.fommil.netlib:all:1.1.2 依赖 。 


4.4.2 


数据 类 型 


元 。 所 以 ， 节 点 中 需要 安装 gfortran 运行 库 。MLlib 若 找 


所 依赖 的 netlib-java 原生 库 。 运 行 时 


上 参数 -Pnetlib-lgpl 再 编译 Apache Spark， 或 者 在 项 


MLlib 提供 的 数据 类 型 包括 本 地 向 量 (Local vector)、 含 标签 的 点 (Labeled Point)、 本 


地 矩阵 〈Local 
阵 、 行 索引 矩阵 、 


MLlib 文 持 存储 在 单个 机 器 中 的 本 寺 
多 个 RDD 支撑 实现 的 分 布 式 和 矩阵。 本 寺 


Matirces) 以 及 由 


二 


1. 本 地 向 量 


一 个 或 
中 的 的 简单 数据 模型 
督学 习 的 一 个 训练 实例 称 为 “含有 类 标签 的 点 ”。 


三 元 旨 


J。 底 


matrix) 和 分 布 式 矩阵 〈Distributed Matrix)。 其 中 分 布 式 矩 阵 包 括 面向 行 矩 
日 矩阵 。 本 节 将 会 对 以 上 的 数据 类 型 进行 


SparseVector。 建 议 通过 Vectors 中 实现 的 了 


体 实 现 。 


【 例 4-38】 创建 本 地 向 


3 
日 


电 示 例 。 


: 密集 和 稀 下 。 
F 行 的 数组 :指数 和 值 。 举 个 


一 个 本 地 向 量 有 interger 类 型 和 0-based 指数 ， 而 且 
MLlib 支持 两 种 类 型 的 本 地 向 量 
代表 ， 而 稀疏 向 量 是 指 两 个 3 
示 为 密集 向 量 [1.0，0.0，3.0] 或 者 稀疏 问 量 (3，[0，2]，[1.0，3.0])， 


本 地 向 量 的 基 类 是 Vector， 而 官方 也 提供 了 两 个 实现 基 类 Vector 


密集 的 


全 


| 


详细 的 介绍 。 
也 向 量 (Local Vectors ) 和 本 地 和 矩阵 〈Local 
也 向 量 和 本 地 聚 类 是 对 外 公开 
层 线 性 代数 操作 通过 Breeze 和 jablas 来 实现 。 在 MLlib 中 ， 监 
[这 两 个 值 都 存储 在 一 个 机 器 中 。 


向 量 其 输入 值 是 由 一 系列 数值 型 作为 
列子 ， 一 个 向 量 (1.0，0.0，3.0) 能 够 表 
中 3 代表 向 量 的 大 小 。 


El 


里 


的 有 具体 类 DenseVector 和 


[三 方法 来 创建 本 地 向 量 。【 例 4-38】 为 本 地 向 量 的 


且 


~ 
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import org.apache.spark.mllib.linalg. { Vector, Vectors} 

/ 创建 一 个 密集 向 量 dv (1.0, 0.0, 3.0). 

val dv: Vector = Vectors.dense(1.0, 0.0, 3.0) 

val svl: Vector = Vectors.Sparse(3, Array(0, 2), Array(1.0, 3.0)) 
val sv2: Vector = Vectors.Sparse(3, Seq((0, 1.0), (2, 3.0))) 


注意 : Scala 语言 默认 引入 的 是 scala.collection.immutable.Vector， 为 了 使 用 MLlib 的 


已 


Vector， 则 必须 先 引 入 org.apache.spark.mllib.linalg. Vector。 


2. 标记 点 

一 个 标记 点 是 一 个 本 地 向 量 ， 是 密集 或 稀 玖 问 量 ， 与 一 个 标签 /响应 有 关 。 在 MLlib 
中 ， 标 记 点 用 于 监督 学 习 算法 。 由 于 使 用 双 精 度 存储 一 个 标签 ， 所 以 可 以 在 回归 和 分 类 中 使 
标记 点 。 对 于 二 元 分 类 ， 一 个 标签 应 该 是 0 (负数 ) 或 者 是 1〈 正 数 )。 对 于 多 元 分 类 ， 标 
签 的 类 索引 应 该 从 0 开始 。 一 个 标记 点 的 案例 类 LabeledPoint， 如 【 例 4-39】 所 示 。 

【 例 4-39】 创建 标记 点 示例 。 


import org.apache.spark.mllib.linalg.Vectors 

import org.apache.spark.mllib.regression.LabeledPoint 

/ 创建 一 个 带 着 正 标签 和 密集 向 量 的 点 

val pos = LabeledPoint(1.0, Vectors.dense(1.0, 0.0, 3.0)) 

/ 创建 一 个 带 着 负 标 签 和 稀 疏 向 量 的 点 

val neg = LabeledPoint(0.0, Vectors.sparse(3, Array(0, 2), Array(1.0, 3.0))) 


实际 运用 中 ， 稀 琉 数 据 是 很 常见 的 。MLlib 可 以 读 取 以 LIBSVM 格式 存储 的 训练 样 例 ， 
LIBSVM 格式 是 LIBSVM 和 LIBLINEAR 的 默认 格式 ， 这 是 一 种 文本 格式 ， 每 行 代表 一 个 含 
类 标签 的 稀疏 特征 向 量 。 格 式 为 : label indexl:valuel index2:value2... 

索引 是 从 1 开始 并 且 递 增 。 加 载 完 成 后 ， 索 引 被 转换 为 从 0 开始 。 
通过 MLUtlsJoadLibSVMEFile 读 取 训 练 实例 并 以 LIBSVM 格式 存储 ， 如 【 例 4-40】 所 示 。 
【 例 4-40】 读 取 训练 示例 。 


We 


import org.apache.spark.mllib.regression.LabeledPoint 
import org.apache.spark.mllib.util.MLUtls 


import org.apache.spark.rdd.RDD 
val examples: RDD[LabeledPoint] = MLUtils.loadLibSVMFile(sc, "data/mllib/sample_libsvm_data.txt") 


3. 本 地 矩阵 
一 个 本 地 矩阵 由 整 型 的 行列 索引 数据 和 对 应 的 double 型 值 数据 组 成 ， 存 储 在 某 一 个 机 


器 中 。MLlib 文 持 密集 矩 阵 ， 实 体 值 以 列 优先 的 方式 存储 在 一 个 double 数组 中 ， 比 如 下 面 的 
E 阵 : 


> 


1.0 2.0 
3.0 4.0 
5.0 6.0 


其 存储 方式 是 一 个 一 维 数组 [1.0, 3.0, 5.0, 2.0, 4.0, 6.0] 和 和 矩阵 大 小 (3, 2)。 
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本 地 矩阵 的 基 类 是 Matrix， 官 方 也 提供 了 
建议 通过 Matrices 中 实现 的 了 
【 例 4-41】 创建 本 地 和 矩阵 示例 。 


import org.apache.spark.mllib.linalg. {Matrix, Matrices} 
/ 创建 一 个 密集 矩阵 ((1.0, 2.0), (3.0, 4.0), (5.0, 6.0)) 
val dm: Matrix = Matrices.dense(3, 2, Array(1.0, 3.0, 5.0, 2.0, 4.0, 6.0)) 


4. 分布 式 和 矩阵 


体 的 实现 类 提供 了 一 个 实现 DenseMatrix 。 


[三 模式 方法 来 


创建 本 地 矩阵， 如 【 例 4-41】 所 示 。 


一 个 分 布 式 矩阵 由 long 型 行列 索引 数据 和 对 应 的 double 型 值 数据 组 成 。 算 阵 分 布 式 存 


储 在 一 个 或 多 个 RDD 中 。 


对 于 


巨大 的 分 布 式 的 矩阵 来 说 ， 选 择 正 和 


和 的 存储 格式 非常 重要 。 


将 一 个 分 布 式 矩阵 转换 为 男 一 个 不 同 格 式 需要 全 局 Shuffle， 所 以 代价 很 高 。 
目前 已 经 实现 了 3 类 分 布 式 和 矩阵 存储 格式 ， 包 含 面 向 行 的 分 布 式 和 矩阵 (RowMatrix)， 行 


索引 和 矩阵 〈IndexedRowMatrix) 以 及 三 元 久 


E 阵 (CoordinateMatrix)， 之 后 将 逐一 介绍 。 最 基 


本 的 类 型 是 RowMatrix。 一 个 RowMatrix 是 一 个 面向 行 的 分 布 式 和 矩阵， 其 行 索引 是 没有 具体 


含义 的 。 比 如 一 系列 特征 向 量 上 
个 本 地 向 量 。 对 于 RowMatrix， 


错误 。 


(1) 面向 行 的 分 布 式 矩 阵 
一 个 RowMatrix 是 一 个 面向 行 的 分 布 式 和 矩阵 ， 其 行 索 引 是 没有 


的 数值 。 


特征 向 量 的 一 个 集合 。 通 过 
行 由 一 个 本 地 向 量 表 示 ， 所 以 展 


的 一 个 集合 。 通 ; 


实体 集合 是 一 个 RDD。 需 


: 娶 


通 


一 个 RDD 来 代表 所 有 的 行 ， 行 就 是 

并 不 巨大 ， 所 以 一 个 本 地 向 量 可 以 恰当 地 与 驱 
动 程序 交换 信息 ， 并 且 能 够 在 某 一 节点 中 存储 和 操作 。IndexedRowMatrix 与 RowMatrix 相 
似 ， 但 有 行 索 引 ， 可 以 用 来 识别 行 和 进行 join 操作 。 而 CoordinateMatrix 是 一 个 以 三 元 组 列 
表格 式 (COO) 存 储 的 分 布 式 矩 阵 ， 
阵 大 小 ， 所 以 分 布 式 算 阵 的 底层 RDD 必须 是 确定 的 。 


的 是 ， 因 为 需要 绥 存 算 


常 来 说 ， 使 用 非 确定 RDD 会 导致 


# 体 含义 的 ， 比 如 一 系列 


列 数 就 被 整 型 数据 大 小 所 限制 ， 


个 RDD 代表 所 有 的 行 ， 每 一 行 就 是 一 个 本 地 向 量 。 既 然 每 一 


企 实 践 中 列 数 是 一 个 很 小 


一 个 RowMatrix 可 从 一 个 RDD[Vector] 实 例 创 建 ， 如 【 例 4-42】 上 所 示 ， 然 后 就 可 以 计算 


其 概要 统计 信息 了 。 


i 
es 


【 例 4-42】 RowMatrix 的 创建 方法 示例 。 


import org.apache.spark.mllib.linalg. Vector 


import org.apache.spark.mllib.linalg.distributed.RowMatrix 


val rows: RDD[Vector] = ...// 
// 从 RDD[Vector] 创 建 一 个 RowMatrix 


val mat: RowMatrix = new RowMatrix(rows) 


// 得 到 mat 的 大 小 


val m = mat.numRows() 


val n = mat.numCols() 


(2) 行 索引 矩阵 


IndexedRowMatrix 与 RowMatrix 相似 ， 但 其 


-个 本 地 向 量 的 RDD 


索引 具有 特定 含义 ， 本 质 上 是 一 个 含有 索 


We) 


引信 息 的 行 数据 集合 (RDD of indexed rows)。 每 一 行 由 long 型 索引 和 一 个 本 地 癌 量 组 成 。 
一 个 IndexedRowMatrix 可 从 一 个 RDD[IndexedRow] 实 例 创 建 ， 如 【 例 4-43】 所 示 ， 这 
里 的 mdexedRow 是 (Long,Vecton) 的 封装 类 ， 剔 除 IndexedRowMatrix 中 的 行 索引 信息 就 变 成 


一 个 RowMatrix 。 


【 例 4-43】 IndexedRowMatrix 创建 方法 示例 。 


import org.apache.spark.mllib.linalg.distributed. {IndexedRow, IndexedRowMatrix, RowMatrix} 
val rows: RDD[IndexedRow] = .….// 一 个 具有 行 索 引 的 RDD 
/1/ 根据 RDD[IndexedRow] 创 建 一 个 IndexedRowMatrix 


val mat: IndexedRowMatrix = new IndexedRowMatrix(rows) 


// 得 到 mat 的 大 小 


val m = mat.numRows() 


val n = mat.numCols() 


/1 删除 其 索引 


val rowMat: RowMatrix = mat.toRowMatrix() 


(3) 三 元 矩阵 


一 个 CoordinateMatrix 是 一 个 分 布 式 矩阵 ， 


(i: Long, j: Long, value: Double) 一 刀 


【 例 4-44】 CoordinateMatrix 创建 方法 示例 。 


值 。 只 有 当 和 矩阵 的 行 和 列 数目 都 很 巨大 旦 算 阵 很 稀 跑 时 ， 才 使 用 
一 个 CoordinateMatrix 可 从 一 个 RDD[MatrixEntry] 实例 创建 ， 如 【 例 4-44】 所 示 ， 这 
里 的 MatrixEntry 是 (Long，Long，Double) 的 封装 类 。 通 过 调用 toIndexedRowMatrix 可 以 将 一 
个 CoordinateMatrix 转变 为 一 个 IndexedRowMatrix 〈 其 行 是 稀 朴 的 )。 目 前 


实体 集合 是 一 个 RDD。 每 一 个 实体 是 一 个 


组 ， 其 中 i 代表 行 索 引 ，j 代表 列 索 引 ，value 代表 实体 的 


CoordinateMatrix 。 


和 暂 不 文 持 其 他 计算 


| 


import org.apache.spark.mllib.linalg.distributed. {CoordinateMatrix, MatrixEntry} 


val entries: RDD[MatrixEntry] = .… // 


/1/ 根据 RDD[MatrixEntry] 创 建 一 个 CoordinateMatrix 


val mat: CoordinateMatrix = new CoordinateMatrix(entries) 


// 得 到 mat 大 小 


val m = mat.numRows() 


val n = mat.numCols() 
/1/ 将 行为 稀疏 的 CoordinateMatrix 转换 为 IndexRowMatrix 
val indexedRowMatrix = mat.toIndexedRowMatrix() 


(4) 块 矩 阵 (BlockMatrix ) 


一 个 块 矩 阵 是 一 个 | 


(Cint，int)，Matrix) 的 元 组 ， 而 且 


MatrixBlocks 的 RDD 支持 的 分 布 式 入 
[其 中 的 Matrix 的 子 入 


colsPerBlock。 块 矩阵 间 的 运算 文 持 的 操作 有 加 神 


以 用 来 检查 BlockMatrix 是 


否 设 置 正 确 


和 乘 沪 


o 


-个 具有 matrix entries 的 RDD 


E 阵 。 其 中 块 矩 阵 是 一 个 如 


E 阵 指数 的 大 小 是 rowsPerBlock X 
KE。 块 矩 阵 也 有 一 个 函数 validate， 可 


一 个 _ BlockMatrix 能 够 很 方便 地 从 IndexedRowMatrix 或 者 CoordinateMatrix 中 调用 
toBlockMatrix 方法 实现 。toBlockMatrix 方法 默认 创建 大 小 为 1024X1024 的 块 ， 用 户 也 可 以 


通过 调用 toBlockMatrix(rYowsPerBlock, colsPerBlock) 方 法 ， 改 变 划 
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中 的 值 来 改变 块 的 大 小 。 


【 例 


4-45】 创建 块 矩阵 示例 。 


import org.apache.spark.mllib.linalg.distributed. {BlockMatrix, CoordinateMatrix, MatrixEntry} 
val entries: RDD[MatrixEntry] = .…// 一 个 具有 (i, j, v) matrix entries 的 RDD 

/ 根据 RDD[MatrixEntry] 创 建 一 个 CoordinateMatrix 

val coordMat: CoordinateMatrix = new CoordinateMatrix(entries) 

// 将 CoordinateMatrix 转化 为 BlockMatrix 

val matA: BlockMatrix = coordMat.toBlockMatrix().cache() 


/ 验证 BlockMatrix 是 否 被 创建 ， 如 果 没有 创建 将 会 抛 出 一 个 异常 
matA.validate() 
1/ 计算 A^TA. 


val ata = matA.transpose.multiply(matA) 


4.4.3 ”基本 统计 分 析 
基本 统计 分 析 包 括 归 总 分 析 、 关 联 〈 即 相关 性 )、 分 层 抽样 、 假 设 检验 、 随 机 数 生 成 ， 


下 面 对 其 一 一 介绍 。 
. 汇总 统计 
对 RDD[Vector] 格 式 数据 的 列 汇总 统计 ， 用 提供 Statistics 中 的 colStats 方法 来 实现 。 


Pe 


colStats 


方法 返回 一 个 MultivariateStatisticalSummary 实例 ， 里 面包 括 面向 列 的 最 大 值 、 最 小 


值 、 均 值 、 方 差 、 非 零 值 个 数 以 及 总 数量 ， 如 【 例 4-46】 所 示 。 


【 例 4-46】 汇总 统计 示例 。 


2. 


在 统计 分 析 中 ， 计 算 两 个 系列 数据 之 间 的 相关 性 很 常见 。 在 MLlib 中 ， 提 供 了 用 于 计算 


import org.apache.spark.mllib.linalg.Vector 

import org.apache.Spark.mllib.stat.{MultivariateStatisticalSummary, Statistics} 
val observations: RDD[Vector] = …V/ an RDD of Vectors 

/ 计算 列 汇总 统计 

val summary: MultivariateStatisticalSummary = Statistics.colStats(observations) 
printIn(summary.mean) // 每 列 的 平均 值 

printIn(summary.variance) // 每 列 的 方差 

println(summary.numNonzeros) // 每 列 中 非 零 值 的 个 数 


相关 性 


多 系列 数据 之 间 两 两 关系 的 灵活 性 算法 。 目 前 支持 的 相关 性 算法 是 Perarson 相关 和 
Spearsman 相关 。 

Statistics 提供 了 计算 系列 数据 间 相 关 性 的 方法 。 根 据 输入 类 型 ， 输 入 两 个 RDD[Double] 
或 RDD[Vector]， 将 相应 输出 一 个 Double 或 相关 算 阵 ， 如 【 例 4-47】 所 示 。 

【 例 4-47】 相关 系数 的 计算 示例 。 


import org.apache.spark.SparkContext 
import org.apache.spark.mllib.linalg._ 
import org.apache.spark.mllib.stat. Statistics 


val sc: SparkContext = ... 
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val seriesX: RDD[Double] = …/W 一 系列 的 数据 
val seriesY: RDD[Double] = …V/ 必须 和 seriesX 拥有 一 样 的 分 区 和 基数 
/ 使 用 Pearson 方法 来 计算 相关 性 ， 如 果 没 有 指定 方法 ， 将 会 默认 使 用 Pearson 方法 
val correlation: Double = Statistics.corr(seriesX, seriesY, "pearson") 
val data: RDD[Vector] =..…. // 该 Vector 是 行 问 量 而 不 是 列 问 量 
/ 使 用 Pearson 方法 来 计算 相关 性 ， 如 果 没 有 指定 方法 ， 将 会 默认 使 用 Pearson 方法 
val correlMatrix: Matrix = Statistics.corr(data, "pearson") 
3. 分 层 抽样 
在 MLlib 中 ， 不 同 于 其 他 统计 方法 ， 分 层 抽样 方法 如 sampleByKey 和 sampleByKeyExact， 
运行 在 键 值 对 格式 的 RDD 上 。 对 分 层 抽样 来 说 ，KEYS 是 一 个 标签 ， 值 是 特定 的 属性 。 比 
如 ，KEY 可 以 是 男性 或 女性 、 文 档 ID， 其 相应 的 值 可 以 是 人 口 数据 中 的 年 龄 列表 或 者 文档 
中 的 词 列表 。sampleByKey 方法 对 每 一 个 观测 掷 币 决定 是 否 抽 中 它 ， 所 以 需要 对 数据 进行 一 
次 遍历 ， 也 需要 输入 期 望 抽样 的 大 小 。 而 sampleByKeyExact 方法 并 不 是 简单 地 在 每 一 层 中 
使 用 sampleByKey 方法 进行 随机 抽样 ， 它 需要 更 多 资源 ， 但 可 提供 置信 度 高 达 99.99% 的 精 
确 抽样 。 
sampleByKeyExact 允 许 使 用 者 准确 抽取 [f; *nm]vke 个 元 素 ， 这 里 的 及 是 从 键 x 中 期 
望 抽取 的 比例 ，nx 是 从 键 ¢ 中 抽取 的 键 值 对 数量 ， 而 K 是 键 集合 。 为 了 确保 抽样 大 小 ， 无 放 
9 抽样 对 数据 会 多 一 次 裔 历 ， 然 而 ， 有 放 回 的 抽样 会 多 两 次 壳 历 。【 例 4-48】 所 示 为 分 层 


E 
TT 


【 例 4-48】 分 层 抽 样 示 例 。 


import org.apache.spark.SparkContext 

import org.apache.spark.SparkContext._ 

import org.apache.spark.rdd.PairRDDFunctions 
val sc: SparkContext = ... 

val data =...// 包含 key-value 键 值 对 的 RDD 
val fractions: Map[K, Double] =... 

/ 从 每 一 层 中 获取 准确 的 样本 


val approxSample = data.sampleByKey(withReplacement = false, fractions) 


val exactSample = data.sampleByKeyExact(withReplacement = false, fractions) 


4. 假设 检验 

在 统计 分 析 中 ， 假 设 检验 是 一 个 强大 的 工具 ， 用 来 判断 结果 是 否 统计 充分 ， 还 会 用 来 判 
断 结果 是 否 为 随机 产生 。MLlib 支持 Pearson 卡 方 校 验 〈 入 ) 来 测试 适 配 度 和 独立 性 。 输 入 
数据 类 型 决定 了 是 否 产生 适 配 度 或 独立 性 。 适 配 度 校 验 需要 Vector 输入 类 型 ， 而 独立 性 测试 
需要 一 个 矩阵 输入 。 

MLlib 也 支持 RDD[LabeledPoint] 输 入 类 型 ， 然 后 使 用 卡 方 独立 性 测试 来 进行 特征 选择 。 
【 例 4-49】 是 卡 方 检验 方法 示例 。 

【 例 4-49】 卡 方 检验 示例 。 


import org.apache.spark.SparkContext 
import org.apache.spark.mllib.linalg._ 
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5. 


import org.apache.spark.mllib.regression.LabeledPoint 
import org.apache.spark.mllib.stat.Statistics._ 

val sc: SparkContext = 

val vec: Vector = .…// 由 一 系列 事件 的 频率 组 成 的 向 量 
val goodnessOfFitTestResult = Statistics.chiSqTest(vec) 
println(goodnessOfFitTestResulb 

val mat: Matrix = …/W 一 个 偶然 性 矩阵 
/ 在 偶然 性 矩阵 上 进行 Pearson 独立 测试 

val independenceTestResult = Statistics.chiSqTest(mat) 


println(independenceTestResult) 
val obs: RDD[LabeledPoint] =... 
val featureTestResults: Array[ChiSqTestResult] = Statistics.chiSqTest(obs) 
vari=1 
featureTestResults.foreach { result => 
println(s"Column $i:\n$result") 
i+=1 
}W 测试 总 结 


随机 数据 生成 


随机 数据 生成 对 随机 的 算法 、 原 型 和 性 能 测试 来 说 是 有 用 的 。MLlib 支持 指定 分 布 类 型 
来 生成 随机 RDD， 如 均匀 分 布 、 标 准 正 态 分 布 和 泊 松 分 布 。 

RandomRDD 提供 工厂 方法 来 生成 随机 double RDD 或 者 vector RDD。 如 【 例 4-50】 所 
示 生 成 一 个 随机 的 double RDD， 其 值 服从 标准 正 态 分 布 N(0,1)， 然 后 将 其 映射 为 


N(1,4)。 


【 例 4-50】 随机 数 生成 示例 。 


4.4.4 


import org.apache.spark.SparkContext 

import org.apache.spark.mllib.random.RandomRDDs._ 

Val sc: SparkContext = 

/ 生成 100 万 个 双 精 度 的 值 ， 服 从 正 态 分 布 N(0, 1)， 并 均匀 的 分 布 在 10 个 分 区 中 
val u = normalRDD(sc, 1000000L, 10) 

/ 转化 为 服从 N(1, 当 的 双 精 度 RDD 


val v=u.map(x => 1.0 + 2.0 * x) 


分 类 与 回归 


MLlib 支持 二 元 分 类 、 多 类 分 类 、 回 归 分 析 等 多 种 算法 。 表 4-12 列 出 了 问题 类 别 及 其 


相关 算法 ， 同 时 下 文 将 对 这 些 算法 模型 进行 介 


o 


表 4-12 问题 类 别 及 相关 算法 


问题 类 别 支持 的 方法 
-元 分 类 线性 支持 向 量 机 ， 逻 辑 回归 ， 决 策 树 ， 朴 素 贝 叶 斯 
多 级 分 类 决策 树 ， 朴 素 贝 叶 斯 

可 归 线性 最 小 二 乘法 ，Lasso， 岭 回归 ， 决 策 树 
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， 线 性 模型 

. 数学 公式 

许多 标准 机 器 学 习 方 法 可 以 被 转换 为 凸 优化 问题 ， 即 一 个 为 凸 函数 广 找到 最 小 值 的 任 
务 ， 这 个 函数 了 依赖 于 一 个 有 4 个 值 的 向 量变 量 w (代码 中 的 weights )。 这 是 一 个 
min_,f(w) 优化 问题 ， 其 目标 函数 具有 如 下 形式 : 


f (w) := AR(W)+— 二 La， y,) 


i=l 


向 量 x;e R" 是 训练 数据 样本 ， 其 中 1 志 i 二 n。yie R 是 相应 的 类 标签 ， 也 是 想 要 预测 的 目 
标 。 如 果 L(w; x, y) 能 被 表述 为 wTx 和 y 的 一 个 函数 ， 则 称 该 方法 是 线性 的 。 有 儿 个 MLlib 分 类 
和 回归 算法 属于 该 范畴 ， 下 面 将 一 一 讨论 。 
目标 函数 /包括 两 部 分 : 控制 模型 复杂 度 的 正则 化 因子 和 度量 模型 误差 的 损失 函数 。 损 
失 函 数 L(w;.) 是 典型 关于 w 的 凸 函数 。 事 先 锁定 的 正则 化 参数 入 宇 0 (代码 中 的 regParam) 承 
载 了 在 最 小 化 损失 量 ( 训 练 误差 ) 和 最 小 化 模型 复杂 度 〔 避 免 过 渡 拟 合 ) 两 个 目标 之 间 的 权 
衡 取 含 。 

表 4-13 概述 了 MLlib 支持 的 损失 函数 、 梯 度 和 子 梯度 。 


表 4-13 MLlib 支持 的 损失 函数 及 梯度 和 子 梯度 


损失 函数 类 型 损失 函数 L( w; x, y) 梯度 或 子 梯度 
| -yxif (yw <D 
hinge loss max{0,1— yw x},y e{—1,+1} Wn 
OQ(otherwise) 
logistic loss log( + exp(—yw 0)), ye {-1+1) -中 1 一 一 | 
1l+exp(—yw xX) 
squared loss ud —y),yeR (WTIx—y):x 


正则 化 因子 的 目标 是 获得 简单 模型 和 避免 过 度 拟 合 。 在 MLlib 中 ， 支 持 表 4-14 所 示 的 
正则 化 因子 。 


表 4-14 正则 化 因子 


类 型 正则 化 因子 R (w) 梯度 或 梯度 因子 
零 ( 未 正则 化 ) 0 9 

12 范 数 $IwlB w 

L1 范 数 wh Sign(w) 


表 中 ，sign (w) 是 一 个 代表 w 中 所 有 实体 的 类 标签 (signs (+1)) 的 向 量 。 

与 L1 正则 化 问题 比较 ， 由 于 L2 的 平滑 性 原因 ，L2 正则 化 问题 一 般 较 容易 解决 。 但 
是 ， 由 于 可 以 强化 权重 的 稀疏 性 ，L1 正则 化 更 能 产生 较 小 的 和 更 容易 解释 的 模型 ， 而 
后 者 在 特征 选择 是 非常 有 用 的 。 不 正则 化 而 去 训练 模型 是 不 恰当 的 ， 尤 其 是 在 训练 样本 数量 
较 小 的 时 候 。 
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(OF 


分 类 


二 元 分 类 将 数据 项 划分 为 两 类 : 正 例 和 反例 。MLlib 支持 两 种 二 元 分 类 的 线性 方法 线 


性 支持 向 量 机 
训练 数据 集 | 
定 训练 标签 y 


和 他 辑 回 归 。 对 两 种 方法 来 说 ，MLlib 都 文 持 


Ll1、L2 正则 化 。 在 MLlib 中 ， 


一 个 LabeledPoint 格式 的 RDD 来 表示 。 需 要 注意 ， 本 书 中 的 数学 公式 里 ， 约 


为 +1〈 正 例 ) 或 -1 反例)。 但 是 在 MLlib 中 


例 标签 是 0 而 


不 是 -1。 


@ 线性 支持 向 量 机 (SVM) 
对 于 大 规模 的 分 类 任务 来 说 ， 线 性 支持 向 量 机 是 标准 方法 。 它 是 上 面 “数学 公式 ”内 容 


中 所 描述 的 线 


默认 配置 


方式 ， 问 题 变 


， 为 了 与 多 类 标签 保持 一 致 ， 反 


性 方法 ， 其 损失 函数 是 hinge loss: 


L(w; x, y):=max{0,1 一 yw 


下 ， 线 性 SVM 使 用 2 正则 化 训练 。 此 外 SVM 也 支持 Ll 正则 化 。 通 过 这 种 


为 线性 规划 问题 。 


x} 


线性 支持 向 量 机 算法 的 产 出 是 一 个 SVM 模 型 。 给 定 新 数据 点 X ， 该 模型 基于 wx 的 值 来 


预测 。 默 认 情 
【 例 4-51 


形 下 ，w'x 宇 0 时 为 正 例 ， 否 则 为 反例 。 


】 演 示 了 如 何 加 载 数据 集 、 运 用 算法 对 象 的 前 


型 预测 来 计 香 


训练 误差 。 


【 例 4-51】 训练 算法 使 用 示例 


import org.apache.spark.mllib.classification. {SVMModel, SVMWithSGD} 
import org.apache.spark.mllib.evaluation.BinaryClassificationMetrics 


import org.apache.spark.mllib.util.MLUtils 


// 导入 LIBSVM 格式 的 训练 数据 


态 方法 执行 训练 算法 以 及 运用 模 


val data = MLUtils.loadLibSVMFile(sc, "data/mllib/sample_libsvm_data.txt") 


/ 将 数据 分 为 60% 的 训练 数据 和 40% 的 测试 数据 


val splits = data.randomSplit(Array(0.6, 0.4), seed = 11L) 
val training = splits(0).cache() 


val te: 


st = splits(1) 


// 运行 训练 算法 建立 模型 

val numlterations = 100 

val model = SVMWithSGD.train(training, numlterations) 
/ 清除 默认 阔 值 

model.clearThreshold() 

// 在 测试 集 上 计算 原始 分 数 


val scoreAndLabels = test.map { point => 


val 


score = model.predict(point.features) 


(score, point.label) 


} 


/ 得 到 评估 权 值 

val metrics =new BinaryClassificationMetrics(scoreAndLabels) 
val auROC = metrics.areaUnderROC() 

println("Area under ROC = " + auROC) 

/ 保存 并 导出 模型 
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model.save(sc, "myModelPath") 
val sameModel = SVMModel.load(sc, "myModelPath") 


默认 配置 下 ，SVMWithSGD.train 将 正则 化 参数 设置 为 1.0 来 进行 L2 正则 化 。 如 果 想 配 
置 算法 参数 ， 我 们 可 以 直接 生成 一 个 SVMWithSGD 对 象 然后 调用 setter 方法 。 所 有 其 他 
MLlib 算法 都 支持 这 种 自 定义 化 方法 。 举 例 来 说 ， 下 面 代码 生 了 一 个 用 于 SVM 的 L1 正则 化 
变量 ， 其 正则 化 参数 为 0.1， 且 和 迭代 次 数 为 200， 如 【 例 4-52】 所 示 。 

【 例 4-52】 调整 算法 配置 参数 示例 。 


import org.apache.spark.mllib.optimization.L1Updater 
val svmAlg = new SVMWIithSGD() 
svmAlg.optimizer. 

setNumIterations(200). 

setRegParam(0.1). 

setUpdater(new L1lUpdater) 
val modelLl = svmAlg.run(training) 


LogisticRegressionWithSGD 的 使 用 方法 与 SVMWithSGD 相似 。 
@ 邮 辑 回归 
逻辑 回归 广泛 运用 于 二 元 因 变 量 预测 。 它 是 上 面 “ 数 学 公式 ”内 容 中 所 描述 的 线性 方 
法 ， 其 损失 函数 是 logistic loss: 


Wl 


L(w; x, y) := log(]l+ exp(—yw’ x)) 


逻辑 回归 算法 的 产 出 是 一 个 逻辑 回归 模型 。 给 定 新 数据 点 XxX， 该 模型 运用 如 下 的 逻辑 
函数 来 预测 


v = 


在 这 里 ，z=wx。 默 认 情 况 下 ， 若 fwx)>0.5， 输 出 是 正 例 ， 否 则 是 反例 。 与 线性 支持 
问 量 机 不 同 之 处 在 于 ， 线 性 回归 模型 1(z) 的 输出 含有 一 个 概率 解释 〈 即 x 是 正 例 的 概率 )。 

MLlib 支持 常用 的 二 元 分 类 评估 度量 方法 (在 PySpark 中 不 可 用 )， 包 括 精 度 、 召 回 
率 、 下 度量、 接收 者 特征 操作 曲线 、 精 度 -召回 紊 曲线 和 AUC。AUC 常用 来 比较 不 同 模型 的 
性 能 ， 精 度 / 召 回 率 /F 度量 用 来 决定 阔 值 时 为 预测 指定 的 恰当 阔 值 。 

二 元 逻辑 回归 能 够 被 推广 至 多 元 逻辑 回归 从 而 训练 和 预测 多 元 分 类 问题 。 举 个 例子 ， 对 
于 可 能 有 K 个 结果 的 问题 ， 可 以 选择 其 中 一 个 结果 作为 中 心 点 ， 其 他 K-1 个 结果 可 以 分 别 
地 对 这 个 中 心 点 进行 回归 。 在 MLlib 中 ， 一 般 选 取 第 一 个 类 〈0) 作为 中 心 类 。 
对 于 多 元 分 类 问题 ， 该 算法 将 输出 一 个 多 项 式 逻 辑 回 归 模 型 ， 在 这 个 模型 中 包含 K-1 
个 二 元 逻辑 回归 模型 对 第 一 个 类 的 回归 。 给 一 个 新 的 数据 点 ， 这 K-1 个 模型 将 会 被 运行 ， 
最 大 概率 的 类 将 被 选择 作为 预测 类 。 

这 里 实现 了 两 个 算法 来 解决 逻辑 回归 问题 ，mini-batch 梯度 下 降 和 L-BFGS 算法 。 对 于 
更 快 的 收敛 ， 推 荐 使 用 L-BFGS 算法 解决 问题 。【 例 4-53】 演 示 了 如 何 装载 多 元 样本 数据 
集 ， 把 它 分 为 训练 和 测试 数据 集 ， 并 使 用 LogisticRegressionWithLBFGS 拟 合 逻 辑 回 归 模 
型 ， 然 后 评估 模型 测试 的 数据 集 并 保存 到 磁盘 。 
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【 例 4-53】 逻辑 回 


归 算 法 示例 。 


import org.apache.spark.SparkContext 


import org.apache.spark.mllib.classification. {LogisticRegression WithLBFGS, LogisticRegression Model} 


import org.apache.spark.mllib.evaluation.MulticlassMetrics 


import org.apache.spark.mllib.regression.LabeledPoint 


import org.apache.spark.mllib.linalg.Vectors 


import org.apache.spark.mllib.util. MLUtils 
val data = MLUtils.loadLibSVMFile(sc, "data/mllib/sample_libsvm_data.txt") 
val splits = data.randomSplit(Array(0.6, 0.4), seed = 11L) 
val training = splits(0).cache() 


val test = splits(1) 


val model = new LogisticRegression WithLBFGSO 
.SetNumClasses(10) 


.Tun(training) 


/ 在 测试 集 上 计算 原始 分 数 


val predictionAndLabels = test.map { case LabeledPoint(label, features) => 


val prediction = model.predict(features) 


(prediction, label) 


} 
/ 得 到 评估 权 值 


val metrics = new 


MulticlassMetrics(prediction AndLabels) 


val precision = metrics.precision 


println("Precision 


= "+ precision) 


model.save(sc, "myModelPath") 


val sameModel = 


(3) 回归 
@ 线性 最 小 二 乘法 
最 小 二 乘法 是 回归 


据 正则 化 参数 类 型 的 不 同 ， 将 相关 算法 分 为 不 同 的 回归 算法 ; 


LogisticRegressionModel.load(sc, "myModelPath ) 


、Lasso 和 上 岭 回归 


问题 中 最 第 用 的 公式 。 它 是 上 面 “数学 公式 ”内 容 中 所 描述 的 线性 方 


1 
L(w; x, y) = 3 —y)” 


I 


或 线性 最 小 二 乘法 : 未 正则 化 。 


其 损失 函数 是 平方 损失 〈squared loss ); 
国 少 通 最 小 二 乘法 

国 岭 回 归 算法 使 用 L2 正则 化 。 

国 Lasso 算法 : 使 用 Ll 正则 化 。 

所 有 相关 模型 ， 蓝 


【 例 4-54】 不 同 回 


import org.apache 
import org.apache 


import org.apache 


i 口 as DA、 5 1 n 
平均 损失 或 训练 误差 计算 公式 为 ， 二 Dy (ww 
ee 


归 算 法 示例 。 


.Spark.mllib.regression.LabeledPoint 
.spark.mllib.regression.LinearRegression Model 


.Spark.mllib.regression.LinearRegression WithSGD 


= y)” 
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import org.apache.spark.mllib.linalg.Vectors 


/ 导入 并 解析 数据 
val data = sc.textFile("data/mllib/ridge-data/lpsa.data") 


val parsedData = data.map { line => 


val parts = line.split(,) 
LabeledPoint(parts(0).toDouble, Vectors.dense(parts(1).split(' ).map(_.toDouble))) 
}.cache() 
// 建立 模型 
val numIterations = 100 
val model = LinearRegressionWithSGD.train(parsedData, numlIterations) 
/ 在 训练 集 上 评估 模型 并 计算 训练 误差 
val valuesAndPreds = parsedData.map { point => 


val prediction = model.predict(point.features) 
(point.label, prediction) 
} 
val MSE = valuesAndPreds.map{case(v, p) => math.pow((v - p), 2)}.mean() 
println("training Mean Squared Error = " + MSE) 
/ 保存 并 导出 模型 
model.save(sc, "myModelPath") 


val sameModel = LinearRegression Model.load(sc, "myModelPath") 


RidgeRegressionWithSGD 和 LassoWithSGD 能 够 和 LinearRegressionWithSGD 以 相同 的 
方式 使 用 。 为 了 运行 以 上 的 代码 ， 必 须 确保 在 构建 文件 时 加 入 spark-mllib 依赖 。 
@ 流 的 线性 回归 
当 数 据 以 流 的 形式 传 入 ， 且 当 收 到 新 数据 更 新 模型 参数 时 ， 在 线 拟 合 回归 模型 是 有 用 
的 。MLlib 使 用 普通 最 小 二 乘法 实现 流 的 线性 回归 。 这 种 拟 合 的 处 理 机 制 与 离线 方法 相似 ， 
但 其 拟 合 发 生 于 每 一 数据 块 到 达 时 之 外 ， 目 的 是 为 了 持续 更 新 以 反应 流 中 数据 。 
下 面 的 过 程 演示 了 如 何 从 两 个 文本 流 中 加 载 训练 数据 和 验证 数据 ， 将 其 解析 为 
LabeledPoint 流 ， 并 基于 第 一 个 流 在 线 拟 合 线性 回归 模型 ， 然 后 在 第 二 个 流 上 进行 预测 。 
首先 ， 导 入 用 来 解析 输入 数据 和 创建 模型 的 类 。 


import org.apache.spark.mllib.linalg.Vectors 
import org.apache.spark.mllib.regression.LabeledPoint 
import org.apache.spark.mllib.regression.StreamingLinearRegression WithSGD 


然后 ， 创 建 训 练 集 和 测试 集 的 输入 流 。 假 定 一 个 StreamingContext 已 经 被 创建 ， 对 这 个 
过 程 来 说 ， 在 流 中 使 用 了 含 类 标签 的 点 ， 但 在 实际 应 用 中 ， 也 可 能 使 用 不 含有 类 标签 的 数据 
作为 测试 集 。 


val trainingData = ssc.textFileStream("/training/data/dir").map(LabeledPoint.parse).cache() 
val testData = ssc.textFileStream("/testing/data/dir").map(LabeledPoint.parse) 


将 权重 初始 化 为 0 来 创建 模型 。 


val numFeatures = 3 
val model = new StreamingLinearRegression WithSGDO) 
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.SetInitial Weights(Vectors.zeros(numFeatures)) 


接 下 来 ， 启 动用 于 训练 和 测试 的 流 并 开始 任务 ， 打 印 其 正确 的 类 标签 结果 来 观察 结果 。 


model.trainOn(trainingData) 

model.predictOn Values(testData.map(lp => (lp.label, lp.features))).printO 
ssc.start() 

ssc.awaitTermination() 


可 以 在 训练 目录 和 测试 目录 中 存 入 文本 数据 来 模拟 流 事件 。 每 一 行 数据 应 该 是 一 个 
(y,[X1,x2,x3]) 格 式 的 数据 点 ， 其 中 y 是 类 标签 ， 而 x1，x2，x3 是 特征 。 每 当 一 个 文本 文件 放 
入 /training/data/dir 目录 时 模型 会 更 新 。 每 当 一 个 文本 文件 放 入 到 /testing/data/dir 目录 时 ， 可 
以 观察 到 预测 结果 。 在 训练 目录 中 放 入 越 多 数据 ， 预 测 的 结果 越 好 。 

(4) 面向 开发 者 的 实现 

在 具体 场景 之 外 ，MLlib 还 实现 了 随机 梯度 下 降 的 一 个 简单 分 布 式 版 本 ， 该 实现 基于 底 
层 的 梯度 下 降 功能 单元 。 所 有 提供 的 算法 接收 一 个 正则 化 参数 (regParam) 和 不 同 的 随机 梯 
度 下 降 相 关 参 数 (stepSize，numiterations，miniBatchFraction) 作为 输入 。 每 一 个 算法 都 支持 三 种 
可 能 正则 化 方法 (分 别 是 不 正则 化 ，L1 正则 化 ，L2 正则 化 )， 算 法 如 下 。 

@ SVMWIithSGD 

@ LogisticRegressionWithLBFGS 

@ LogisticRegression WithSGD 

@ LinearRegressionWithSGD 

@ RidgeRegression WithSGD 

@ LassoWithSGD 

2. 朴素 贝 叶 斯 

朴素 贝 叶 斯 是 一 种 简单 的 多 类 分 类 方法 ， 它 假定 分 类 特征 之 间 两 两 不 相关 。 朴 素 贝 叶 斯 
在 训练 上 非常 有 效率 。 对 于 训练 集中 的 每 一 条 记录 ， 它 计算 每 一 个 特征 在 类 标签 上 的 条 件 概 
率 分 布 ， 然 后 运用 贝 叶 斯 理论 计算 菜 一 观察 在 类 标签 的 条 件 概率 分 布 ， 并 用 之 来 预测 。 
MLlib 文 持 多 模 朴 素 贝 叶 斯 《Multinomial Naive Bayes)， 将 其 主要 用 于 文档 分 类 的 算 
法 。 用 于 此 场景 时 ， 每 个 观察 者 是 一 个 文档 ， 每 个 特征 代表 一 个 单词 ， 特 征 的 值 是 单词 的 频 
率 。 特 征 值 必须 是 非 负 的 单词 出 现 频率 。 附 加 的 平滑 处 理 可 通过 设置 参数 入 (默认 值 为 1.0) 
来 完成 。 对 于 文档 分 类 ， 输 入 的 特征 向 量 通常 是 稀 玻 的 ， 并 且 能 够 获得 稀 玻 输入 的 特有 优 
势 。 由 于 训练 数据 只 是 用 一 次 ， 因 此 没有 必要 缓冲 它 。 

NaiveBayes 实现 了 多 模 朴 素 贝 叶 斯 算法 。 它 接收 一 个 LabeledPoint 格式 的 RDD 和 一 个 
可 选 的 平滑 参数 lambda 作为 输入 ， 输 出 一 个 用 于 评估 和 预测 的 NaiveBayesModel 模型 。 代 
码 片 段 如 【 例 4-55】 所 示 。 

【 例 4-55】 朴素 贝 叶 斯 模型 示例 。 


import org.apache.spark.mllib.classification.{ NaiveBayes, NaiveBayesModel} 
import org.apache.spark.mllib.linalg.Vectors 

import org.apache.spark.mllib.regression.LabeledPoint 

val data = sc.textFile("data/mllib/sample_naive_bayes_data.txt") 
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val parsedData = data.map { line => 
val parts = line.Split(,) 
LabeledPoint(parts(0).toDouble, Vectors.dense(parts(1).split(' ).map(_.toDouble))) 


} 


val splits = parsedData.randomSplit(Array(0.6, 0.4), seed = 11L) 
val training = splits(0) 


val test = splits(1) 


val model = NaiveBayes.train(training, lambda = 1.0, modelType = "multinomial") 


val prediction AndLabel = test.map(p => (model.predict(p.features), p.label)) 


val accuracy = 1.0 * prediction AndLabel.filter(x => x._1 = = x. 2).count() / test.count() 


model.save(sc, "myModelPath") 
val sameModel = NaiveBayesModel.load(sc, "myModelPath") 


3. 决策 树 

决策 树 及 
理 分 类 特征 、 
决策 树 得 

MLlib 归 


公 


月 


家 族 是 解决 分 类 和 
E 够 扩展 处 理 多 
到 广泛 应 用 。 该 体系 中 的 算法 如 随机 森林 等 都 是 分 类 和 
P 的 决策 树 支 持 二 元 和 多 


类 个 类 


类 分 类 、 不 需要 特 生 


类 分 类 ， 


支持 连续 特 和 


对 数据 分 区 ， 可 以 分 布 式 实现 数 百 万 样本 分 类 操作 。 


(1) 基础 算法 
次 策 树 是 一 种 将 特有 
(叶子 分 


E 空 间 


区 ) 分 配 一 个 类 标签 。 


目的 是 从 树 节 点 中 获得 最 大 信息 增益 。 换 言 之 ,二 


原则 选择 ， 在 这 里 IG(D,s) 


@ 市 点 不 纯度 和 信息 
岗 来 说 ， 每 一 连续 特征 的 切 分 备 选 方案 通 ? 


对 小 数据 集 的 单机 实 ] 


外 增 


二 忆 
o 


I 


是 每 次 切 分 产生 的 信 | 
峭 益 


全 


实现 先 对 特 生 


F 值 排序 ， 然 后 使 ) 


排序 后 的 唯 


Pt 


\ 


对 本 
分 位 数 计算 ， 来 获得 
maxBins 参数 指定 。 


注意 ， 闭 箱 数 上 


@ 切 分 备 选 方案 


时 不 能 大 于 相 


对 一 个 具有 IM 个 可 外 


~ 


方案 中 选择 一 利 


和 。 对 于 二 元 分 类 和 回归 ， 可 以 根据 


将 备 选 分 类 方案 的 数量 降 
在 标签 1 上 的 比例 依次 是 


4 


对 于 多 
时 ， 使 


分 备 选 方案 是 “A|C,B” 和 “A,C|B” 其 中 
最 多 可 以 有 2 "1 利 
一 种 类 似 于 二 元 分 类 和 回归 的 启发 式 方法 。 这 M 个 特 得 


0.2/0.6/0.4， 


的 竖 线 是 分 隔 符 。 
备 选 切 分 方案 供 使 ) 


F 变 换 以 及 能 够 捕获 非 线 性 特 生 


R 策 树 方法 易于 解释 和 
E 关 系 ， 使 


处 


得 


加 归 任 务 中 的 高 性 能 算法 。 


FE 和 分 


以 达 代 的 方式 进行 二 元 切 分 的 贪心 算 光 
每 一 次 切 分 都 贪心 地 从 可 能 切 分 集合 中 选择 一 个 最 佳 切 分 ， 
E 每 一 节点 的 切 分 都 是 基于 arg max 1G(D，, s) 


EF 


类 特 和 


个 


。 树 为 每 个 最 底层 分 


系列 唯一 值 。 


常 是 


由 样 上 执 


RR 的 M1 个 切 分 备 选 方案 


个 
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FP 选择 ， 其 中 不 纯度 指 样本 在 构建 树 时 


被 错误 分 类 的 可 能 性 。 


回归 。 决 策 树 通 ; 


过 


jx 


些 


作为 切 分 备 选 方案 ， 以 更 快 地 执行 树 计算 。 
巨大 的 分 布 式 数据 集 来 说 ， 特 征 值 排序 代价 很 高 。 实 际 的 实现 是 在 数据 
个 近似 的 切 分 备 选 方案 集 。 排 序 的 切 分 创建 箱 ， 装 箱 的 最 大 数量 通过 


行 


本 数量 N (maxBins 的 默认 值 是 100)。 如 果 条 件 不 满足 ， 决 


和 值 (分 类 标签 ) 的 分 类 特征 来 说 ， 切 分 方法 是 从 2 和 -1 种 备 选 切 分 
类 标签 调和 均值 将 特征 值 排序 ， 如 此 可 以 
氏 到 M-1 个 。 比 如 ， 对 某 个 具有 分 类 值 A/B/C 的 分 类 特征 ，A/B/C 
分 类 值 排序 是 A、C、B。 对 二 元 分 类 来 说 ， 可 能 切 


]。 当 2 二 1 大 于 maxBins 人 参数 
E 值 根据 不 纯度 排序 ， 然 后 从 结 


@ 停止 规则 

当 如 下 的 两 个 条 件 之 一 满足 时 ， 停 止 递归 树 构造 。 

图 节点 深度 已 经 等 于 训练 参数 maxDepth。 

图 在 节点 上 已 经 没有 切 分 备 选 方案 能 够 获得 信息 增益 。 

(2) 实现 细节 

@ 最 大 内 存 需求 

为 了 快速 处 理 ， 决 策 树 算法 对 树 同一 等 级 上 的 所 有 节点 同时 执行 直方 图 计算 。 于 是 随 着 
树 的 深度 越 来 越 深 ， 对 内 存 的 需求 也 越 大 ， 可 能 会 导致 内 存 谥 出 。 为 了 缓解 该 问题 ， 训 练 参 
数 maxMemoryInMB 〈 在 主 节 点 上 翻 倍 ) 限定 了 工作 节点 上 的 用 于 直方 图 计算 的 最 大 内 存 。 
保守 地 将 默认 值 设 置 为 128MB， 在 大 多 数 场景 下 ， 决 策 算法 可 以 正常 工作 。 一 旦 某 一 等 级 
上 所 需 内 存 超过 maxMemoryInMB 阐 值 ， 在 该 等 级 之 下 的 所 有 训练 任务 都 被 拆 分 为 较 小 的 多 
个 任务 。 需 要 注意 ， 如 果 有 更 大 的 内 存 ， 增 加 maxMemoryInMB 能 减少 数据 转移 从 而 加 快 训 
练 进度 。 

@ 特征 值 装 箱 
通过 增 大 maxBinsS2 使 得 算法 考虑 更 多 的 切 分 备 选 方案 ， 从 而 进行 更 细 粒 度 的 决策 。 但 
是 ， 它 也 增加 了 计算 量 和 通信 量 。 需 要 注意 ， 对 任意 分 类 特征 来 说 ，maxBins 参 数 的 最 小 值 
也 必须 是 最 大 标签 数 M。 

@ 规模 自 适应 

计算 量 随 着 训练 样本 数量 、 特 征 数 量 、maxBins 参数 值 近似 线性 地 增长 。 通 信 量 随 着 特 
征 数量 和 maxBins 参数 值 也 近似 线性 地 增长 。 算 法 实现 可 以 接收 稀疏 数据 和 密集 数据 。 但 
是 ， 并 未 针对 稀疏 数据 进行 优化 。 

(3) 示例 

1) 下 面 的 【 例 4-56】 分 类 的 例子 演示 了 如 何 加 载 LIBSVM 数据 文件 ， 将 它 解析 为 
LabeledPoint 的 RDD， 然 后 使 用 基尼 系数 的 决策 树 进行 分 类 ， 作 为 杂质 测量 ， 其 中 树 的 最 大 
深度 为 5。 测 试 计算 误差 来 衡量 算法 的 准确 性 。 

【 例 4-56】 使 用 决策 树 分 类 示例 。 


一 


import org.apache.Spark.mjllib.tree.Decision Tree 

import org.apache.spark.mllib.tree.model.DecisionTreeModel 

import org.apache.sSpark.mllib.util.MLUtils 

val data = MLUtils.loadLibSVMFile(sc, "data/mllib/sample_libsvm_data.txt") 
/ 将 数据 分 为 70% 的 训练 数据 和 30% 的 测试 数据 
val splits = data.randomSplit(Array(0.7, 0.3)) 

val (trainingData, testData) = (splits(0), splits(1)) 

/ 训练 一 个 决策 树 模型 

val numClasses = 2 


val categoricalFeaturesInfo = Map[Int, Int]O 
val impurity = "gini" 
val maxDepth =5 


val maxBins = 32 


@ maxBins: 每 个 特征 分 裂 时 ， 最 大 的 划分 数量 。 
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val model = DecisionTree.trainClassifier(trainingData, numClasses, categoricalFeaturesInfo, 
impurity, maxDepth, maxBins) 
val labelAndPreds = testData.map { point => 
val prediction = model.predict(point.features) 
(point.label, prediction) 
} 
val testErr = label AndPreds.filter(r => r._1 !=1._2).count.toDouble / testData.count() 
println("Test Error = " + testErr) 
println("Learned classification tree model:\n" + model.toDebugString) 
model.save(sc, "myModelPath") 
val sameModel = DecisionTreeModel.load(sc, "myModelPath") 


2) 下 面 【 例 4-57】 演示 了 如 何 加 载 LIBSVM 数据 文件 ， 将 它 解析 为 LabeledPoint 的 


RDD， 然 后 进行 回归 和 方差 计算 ， 作 为 杂质 测量 
(MSE) 结 束 时 评估 拟 合 优 度 。 


， 其 中 树 的 最 大 深度 为 5。 计 算 均 方 误差 


闻 
工 


【 例 4-57】 使 用 决策 树 回归 示例 。 


y 


4. 


import org.apache.spark.mllib.tree.DecisionTree 
import org.apache.spark.mllib.tree.model.DecisionTreeModel 
import org.apache.spark.mllib.util. MLUtls 
val data = MLUtils.loadLibSVMFile(sc, "data/mllib/sample_libsvm_data.txt") 
val splits = data.randomSplit(Array(0.7, 0.3)) 
val (trainingData, testData) = (splits(0), splits(1)) 
val categoricalFeaturesInfo = Map[Int IntO 
val impurity = "variance" 
val maxDepth = 5 
val maxBins = 32 
val model = Decision Tree.trainRegressor(trainingData, categoricalFeaturesInfo, impurity, 
ImaxDepth, maxBins) 
val labelsAndPredictions = testData.map { point => 
val prediction = model.predict(point.features) 
(point.label, prediction) 
} 
val testMSE = labelsAndPredictions.map{ case(v, p) => math.pow((v - p), 2)}.mean() 
println("Test Mean Squared Error = " + testMSE) 
println("Learned regression tree model:\n" + model.toDebugString) 
model.save(sc, "myModelPath") 
val sameModel = DecisionTreeModel.load(sc, "myModelPath") 


树 的 集合 体 


整体 方法 是 一 种 学 习 算 法 ， 是 由 一 组 其 他 的 基础 模型 组 成 的 集成 模型 。MLlib 支持 两 种 


ee eS 


这 两 个 算法 都 使 用 决策 树 作为 基础 模型 。Gradient-Boosted Trees (GBT) 和 Random Forest 算法 


要 的 集成 学 习 算 法 : 梯度 上 升 树 (GradientBoostedTrees) 和 随机 森林 (RandomForest)。 


都 是 集成 学 习 算 法 ， 但 是 训练 的 过 程 却 不 同 。 
1) GBT 一 次 只 训练 一 棵 树 ，RandomForest 算法 可 以 并 行 的 训练 多 棵 树 ， 所 以 对 比 随机 
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森林 算法 ，GBT 会 花费 更 长 的 时 间 去 训练 。 另 一 方面 来 说 ， 对 于 更 浅 的 树 选 择 GBT 算法 更 
加 合理 ， 因 为 训练 一 棵 树 花 费 的 时 间 更 短 。 
2) RandomForest 算法 不 容易 过 拟 合 。 
3) RandomForest 算法 更 加 容易 调整 ， 因 为 当 树 的 数量 改变 时 就 可 以 提高 性 能 。 当 树 的 
数量 变 的 足够 大 时 ，GBT 的 性 能 将 会 降低 。 
总 的 来 说 ，RandomForest 和 RandomForest 这 两 个 算法 效率 都 很 高 ， 要 根据 实际 的 数据 
选择 合适 的 算法 。 
(1) 随机 森林 算法 (Random Forest) 
随机 森林 分 别 地 训练 一 组 决策 树 ， 所 以 训练 可 以 并 行 完 成 。 训 练 过 程 注 入 随机 性 算法 ， 
以 便 使 每 个 决策 树 略 有 不 同 。 结 合 预 测 ， 减 少 每 棵 树 预 测 的 方差 ， 以 提高 测试 数据 的 性 能 。 
为 了 预测 一 个 新 实例 ， 随 机 森林 算法 必须 将 所 有 的 决策 树 的 预测 进行 聚合 ， 这 个 聚合 的 过 程 
在 分 类 和 回归 中 的 具体 表现 略 有 不 同 ， 下 面 的 算法 例子 会 以 分 类 和 回归 做 不 同 的 说 明 。 
在 介绍 算法 的 具体 使 用 过 程 之 前 ， 先 来 了 解 一 下 随机 森林 算法 中 用 到 的 参数 。 
@ numTrees: 森林 里 树木 的 数量 。 增 加 树木 的 数量 将 减少 预测 的 方差 的 大 小 ， 并 提高 模 
型 的 测试 时 间 的 准确 性 。 训 练 时 间 也 会 随 着 树木 的 数量 增加 线性 增长 。 
@ maxDepth: 森林 里 每 棵 树 的 最 大 深度 。 增 加 深度 使 模型 更 具 表达 性 和 更 加 的 强大 。 
然而 ， 深 度 更 大 的 树 训练 的 时 间 更 长 ， 也 更 容易 过 度 拟 合 。 一 般 来 说 ， 当 使 用 随机 
和 森林 时 比 使 用 一 个 单一 的 决策 树 时 更 加 适合 深度 更 大 的 数 ， 因 为 一 棵 树 比 随机 森林 
更 加 容易 过 拟 合 。 
@ subsamplingRate: 该 参数 指定 用 于 在 森林 中 训练 每 棵 树 的 数据 集 大 小 ， 是 一 个 比例 
值 ， 具 体 的 数据 集 大 小 会 随 着 原始 数据 的 大 小 而 改变 。 一 般 默 认 推 荐 1.0， 减 少 这 个 
值 可 以 加 快 训练 速度 。 
@ featureSubsetStrategy: 该 参数 指定 了 对 每 个 树 节 点 进行 分 裂 策 略 的 数量 ， 减 少 这 个 数 
字 将 加 速 训练 ， 但 如 果 太 低 了 则 会 影响 性 能 。 
下 面 的 【 例 4-58】 演 示 了 如 何 加 载 LIBSVM 数据 文件 ， 作 为 LabeledPoint 的 RDD 进行 
解析 ， 然 后 使 用 一 个 随机 森林 执行 分 类 。 测 试 误差 计算 用 来 衡量 算法 的 准确 性 。 
【 例 4-58】 随机 森林 进行 分 类 示例 。 


~ 


SN 
主 


es 


import org.apache.spark.mllib.tree.RandomForest 

import org.apache.spark.mllib.tree.model.RandomForestModel 
import org.apache.Spark.mllib.util.MLUtils 

val data = MLUtils.loadLibSVMFile(sc, "data/mllib/sample_libsvm_data.txt") 
val splits = data.randomSplit(Array(0.7, 0.3)) 

val (trainingData, testData) = (splits(0), splits(1)) 

val numClasses = 2 

val categoricalFeaturesInfo = Map[Int Int]O 

val numTrees = 3 // Use more in practice. 

val featureSubsetStrategy = "auto" // Let the algorithm choose. 
val impurity = "gini" 

val maxDepth = 4 


val maxBins = 32 
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val model = RandomForest.trainClassifier(trainingData, numClasses, categoricalFeaturesInfo, 
numTrees, featureSubsetStrategy, Impurity, maxDepth, maxBins) 
val labelAndPreds = testData.map { point => 
val prediction = model.predict(point.features) 
(point.label, prediction) 
} 
val testErr = label AndPreds.filter(r => r._1 !=1._2).count.toDouble / testData.count() 
println("Test Error = " + testErr) 
println("Learned classification forest model:\n" + model.toDebugString) 
model.save(sc, "myModelPath") 
val sameModel = RandomForestModel.load(sc, "myModelPath") 


下 面 的 【 例 4-59】 演示 了 如 何 加 载 LIBSVM 数据 文件 ， 作 为 LabeledPoint 的 RDD 进行 
解析 ， 人 然后 使 用 一 个 随机 森林 执行 回归 。 计 算 均 方 误差 (MSE) 结 束 时 评估 拟 合 优 度 。 
【 例 4-59】 随机 森林 进行 回归 示例 。 


import org.apache.spark.mllib.tree.RandomForest 
import org.apache.spark.mllib.tree.model.RandomForestModel 
import org.apache.spark.mllib.util. MLUtls 
val data = MLUtils.loadLibSVMFile(sc, "data/mllib/sample_libsvm_data.txt") 
val splits = data.randomSplit(Array(0.7, 0.3)) 
val (trainingData, testData) = (splits(0), splits(1)) 
val numClasses = 2 
val categoricalFeaturesInfo = Map[Int Int]O 
val numTrees = 3 
val featureSubsetStrategy = "auto" 
val impurity = "variance" 
val maxDepth = 4 
val maxBins = 32 
val model = RandomForest.trainRegressor(trainingData, categoricalFeaturesInfo, 
numTrees, featureSubsetStrategy, Impurity, maxDepth, maxBins) 
val labelsAndPredictions = testData.map { point => 
val prediction = model.predict(point.features) 
(point.label, prediction) 
} 
val testMSE = labelsAndPredictions.map{ case(v, p) => math.pow((v - p), 2)}.mean() 
println("Test Mean Squared Error = " + testMSE) 
println("Learned regression forest model:\n" + model.toDebugString) 
model.save(sc, "myModelPath") 
val sameModel = RandomForestModel.load(sc, "myModelPath") 


(2) 梯度 上 升 树 (GBT) 

梯度 上 升 树 〈GBT) 是 决策 树 的 集合 体 。GBT 和 迭代 训练 决策 树 是 为 了 减少 损失 函数 。 
梯度 增加 算法 迭代 地 训练 一 系列 决策 树 。 在 每 次 迭代 中 ， 该 算 法 使 用 当前 的 整体 预测 每 个 训 
练 实例 的 标签 ， 然 后 将 预测 与 真正 的 标签 进行 比较 。MLlib 使 用 连续 和 分 类 功能 支持 GBT 


A 


134 


的 二 元 分 类 和 回归 。MLlib 实现 GBT 是 使 月 


日 现 有 的 决策 树 来 实现 的 。 需 要 注意 的 是 GBT 不 


支持 多 元 分 类 问题 ， 对 于 多 元 分 类 问题 ， 可 使 用 决策 树 或 者 随机 森林 算法 。 
表 4-15 列 出 了 在 MLlib 中 的 GBT 文 持 的 损失 函数 。 注 意 ， 每 个 损失 函数 只 适用 于 分 类 
或 回归 中 的 一 个 而 不 是 两 个 。 
表 4-15 loss 表 
Loss 名 称 任务 2 起 描 述 
Log Loss Classification 2>， 5 log(1 + exp(-2y,F (x;))) 两 次 二 项 消极 的 日 志 可 能 性 
Squared Error Regression > (y; — Fx) 也 被 称 为 L2 损失 
Absolute Error Regression > |y; —F(x)| 岂 被 称 为 Ll 损失 
下 面 先 介绍 一 下 GBT 算法 设计 的 参数 。 
@ loss: 参考 表 4-1$， 不 同 的 loss 适用 于 不 同 的 任务 。 对 于 一 个 数据 集 ， 不 同 的 Loss 
会 得 到 显著 不 同 的 结果 。 
@ numlterations: 这 个 参数 为 树 集合 体 中 树 的 数量 ， 每 次 迭代 都 会 产生 一 棵 树 。 增 加 这 


个 值 会 使 得 训练 数据 更 加 的 精确 ， 但 会 付 


8 比较 大 的 代价 。 如 果 这 个 值 


过 大 会 使 得 


测试 训练 时 间 过 长 。 
@ learningRate: 如 果 该 算法 的 行为 不 是 很 稳定 ， 减 小 这 个 值 可 以 提高 稳定 ， 
@ algo: 使 用 树 的 [Strategy] 参 数 对 算法 或 者 分 类 以 及 回归 任务 进行 设置 。 
Gradient Boosting 算法 在 训练 很 多 树 时 拟 合 。 为 了 防止 过 拟 合 ， 寿 


bE 
上 


E 训 练 时 进行 验 


证 是 非常 有 用 的 ，runWithValidation 提供 了 这 个 功能 。runWithValidation 方法 需要 提供 一 对 
RDD 作为 参数 ， 一 个 作为 训练 集 ， 一 个 作为 验证 集 。 


当 验 证 的 错误 不 超过 一 定 的 公差 (由 BoostingStrategy 提供 的 参数 validationTol 进行 设 


始 减少 之 后 就 会 增加 。 验 说 


上 。 在 实践 中 验 订 


置 ) 训练 将 会 停 ]| FE 错误 刚 
改变 ， 建 议 月 
代 的 数量 。 


下 面 的 【 例 4-60】 演 示 了 如 何 加 载 LIBSVM 数据 文件 ， 作 为 LabeledPoint 


FE 错误 不 一 
日 户 设 置 一 个 足够 大 的 ， 并 且 使 用 evaluateEachIlteration 来 检查 检验 曲线 以 全 


定 会 单调 的 
化 和 欠 


~ 


LU 


的 RDD 进行 


解析 ， 然 后 使 用 梯度 上 升 树 〈GBT) 进行 分 类 。 测 试 误差 计算 来 衡量 算法 的 疹 
【 例 4-60】 梯度 上 升 树 (GBT) 分 类 示例 。 


import org.apache.spark.mllib.tree.GradientBoostedTrees 

import org.apache.spark.mllib.tree.configuration.BoostingStrategy 
import org.apache.spark.mllib.tree.model.GradientBoostedTreesModel 
import org.apache.sSpark.mllib.util.MLUtils 

val data = MLUtils.loadLibSVMFile(sc, "data/mllib/sample_libsvm_data.txt") 
val splits = data.randomSplit(Array(0.7, 0.3)) 

val (trainingData, testData) = (splits(0), splits(1)) 

val boostingStrategy = BoostingStrategy.defaultParams("Classification") 
boostingStrategy.numIterations = 3 
boostingStrategy.treeStrategy.numClasses = 2 
boostingStrategy.treeStrategy.maxDepth = 5 


E 确 


性 。 


135 


解析 ， 


boostingStrategy.treeStrategy.categoricalFeaturesInfo = 


val model = 


val labelAndPreds = testData.map { point => 
val prediction = model.predict(point.features) 


(point.label, prediction) 


} 


val testErr 


println("Test Error = " 


+ testErr) 


Map[Int Int]O 
GradientBoostedTrees.train(trainingData, boostingStrategy) 


println("Learned classification GBT model:\n" + model.toDebugString) 


model.save(sc, "myModelPath") 


val sameModel = 


下 面 的 【 例 4-61】 演示 了 如 何 加 载 LIBSVM 数据 文件 ， 


然后 使 ) 


误差 (MMSE) 结 束 时 评估 拟 合 优 度 。 


【 例 4-61】 梯度 


上 升 算法 (GBT) 


一 个 以 平方 误差 作为 loss 函数 的 梯度 上 升 算法 


回归 示例 。 


GradientBoostedTreesModel.load(sc, "myModelPath") 


import org.apache.spark.mllib.tree.GradientBoostedTrees 


import org.apache.spark.mllib.tree.configuration.BoostingStrategy 


import org.apache.spark.mllib.tree.model.GradientBoostedTreesModel 


import org.apache.spark.mllib.util. MLUtils 
val data = MLUtils.loadLibSVMFile(sc, "data/mllib/sample_libsvm_data.txt") 
val splits = data.randomSplit(Array(0.7, 0.3)) 

val (trainingData, testData) = (splits(0), splits(1)) 
val boostingStrategy = BoostingStrategy.defaultParams("Regression") 


boostingStrategy.numIterations = 3 // Note: Use more iterations in practice. 


boostingStrategy.treeStrategy.maxDepth = 5 


boostingStrategy.treeStrategy.categoricalFeaturesInfo = 


val model = 


val labelsAndPredictions = testData.map { point => 


val prediction = model.predict(point.features) 


(point.label, prediction) 


} 


Map[Int Int]O 


GradientBoostedTrees.train(trainingData, boostingStrategy) 


= labelAndPreds.filter(r => r._1 !=r._2).count.toDouble / testData.count() 


回归 。 


val testMSE = labelsAndPredictions.map{ case(v, p) => math.pow((v - p), 2)}.mean() 


println("Test Mean Squared Error = 


"+ testMSE) 


println("Learned regression GBT model:\n" + model.toDebugString) 


model.savel(sc, 


val sameModel = 


4.4.5 ”协同 过 滤 


内 容 
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"myModelPath") 
GradientBoostedTreesModel.load(sc, "myModelPath") 


协同 过 滤 常 党 被 用 于 分 辨 菜 位 特定 顾客 可 
顾客 对 哪些 产品 感 兴 趣 的 分 析 。 
发 展 。 与 传统 文本 过 滤 本 
分 析 的 信息 ， 如 艺术 品 、 


日 比 ， 协 同 


协同 过 滤 以 上 
过 滤 有 下 列 优 点 : 多 


会 


有 


出 色 的 


SE 


感 兴 
人 心 \ AN 


趣 的 东西 ， 这 些 结论 
速度 和 健壮 性 ， 在 全 


I 


来 自 于 对 
球 互联 网 领域 


作为 LabeledPoint 的 RDD 进行 


(GBT) 执行 计算 均 方 


他 相似 


快速 


第 一 是 能 够 过 滤 难 以 


2 


音乐 ;第 二 是 能 够 基本 


些 复杂 的 、 难 以 表 


进行 机 器 自 


动 基于 
达 的 概念 (信息 


质 


量 、 品 位 ) 进 行 过 滤 ; 第 三 是 推荐 的 新 颖 性 。 正 因为 如 此 ， 协 同 过 滤 在 商业 应 用 上 也 取得 了 
Amazon，CDNow，MovieFinder 都 采用 了 协同 过 滤 的 技术 来 提高 服务 质量 。 

i 同 过 滤 算 法 
| 过 滤 常 用 来 实现 推荐 系统 。 该 技术 力图 填充 用 户 与 物品 关联 和 矩阵 中 缺失 的 实体 。 
MLlib 支持 基于 模型 的 协同 过 滤 ， 在 这 里 ， 用 户 和 产品 称 之 为 是 潜伏 因子 的 一 个 子 集 ， 其 用 
途 是 预测 缺失 实体 。MLlib 使 用 交 蔡 最 小 二 乘法 (ALS) 来 学 习 这 些 潜伏 因子 。MLlib 中 协 
同 过 滤 参 数 如 表 4-16 所 示 。 


这 


表 4-16 协同 过 滤 参 数 含义 


参 数 名 含义 
numBlocks 于 并 行 计算 的 块 数量 〈 设 置 为 -1 表示 自动 配置 ) 
Tank 模型 中 潜伏 因子 的 数量 
iterations 迭代 次 数 
lambda 指定 交 蔡 最 小 二 乘法 中 的 正则 化 参数 
implicitPrefs 指定 究竟 使 用 显 性 反馈 ALS 变 体 还 是 使 用 于 隐形 反馈 的 数据 
alpha 是 隐 式 反馈 ALS 变 体 的 参数 ， 它 管控 了 观测 偏好 的 置信 和 度 闵 值 


2. 显 式 反馈 与 隐 式 反馈 

标准 处 理 方式 下 ， 协 同 过 滤 把 用 户 ee 生 喜 
好 ， 基 于 此 来 发 现 和 矩阵 因子 。 但 在 现实 世界 里 ， 更 常见 的 情形 是 隐 式 反馈 《如 浏览 ， 点 击 ， 
购买 ， 点 赞 ， 分 享 等 )。 在 MLlib 中 处 理 这 类 数据 的 方法 请 参见 “Collaborative Filtering for 
Implicit Feedback Datasets2”。 该 方法 并 不 直接 拟 合 评级 矩阵 ， 而 是 将 数据 视 为 “是 否 喜 好 ” 
和 “置信 度 水 平 ”的 组 合 。 对 用 户 的 喜好 来 说 ， 评 级 与 置信 度 水 平 相关 ， 而 不 是 用 户 对 物品 
的 显 式 评级 值 。 然 后 模型 尽 可 能 地 寻找 潜伏 因子 ， 以 用 来 预测 用 户 对 物品 喜好 。 

3. 对 正则 化 参数 的 调整 

从 MLlib 版 本 1.1 开始 ， 在 解决 每 一 最 小 二 乘法 问题 时 ， 使 用 更 新 用 户 因 子 时 用 户 生成 
的 评级 数量 或 更 新 产品 因子 时 产品 得 到 的 产品 评级 数量 ， 来 调整 正则 化 参数 lambda。 这 种 方 
法 称 之 为 “ALS-WR”。 它 降低 lambda 对 数据 集 大 小 的 相关 性 。 也 因 于 此 ， 能 够 把 从 抽样 数 
据 子 集中 学 习 到 的 最 佳 参数 应 用 到 数据 全 集 。 

4. 示例 程序 

在 下 面 的 【 例 4-62】 中 ， 将 加 载 评级 数据 。 每 行 数据 由 一 个 用 户 ， 一 个 产品 和 一 个 评 
级 组 成 。 假 定 评级 信 ， 息 是 显 性 的 ， 所 以 使 用 默认 的 ALS.train 方法 来 训练 。 最 后 计算 评级 预 
测 的 均 方 误差 来 评估 推荐 模型 。 

【 例 4-62】 ALS 算法 模型 示例 。 


冰 


ps# 


i 


import org.apache.spark.mllib.recommendation.ALS 
import org.apache.spark.mllib.recommendation.MatrixFactorizationModel 


import org.apache.spark.mllib.recommendation.Rating 


论文 可 参见 http://ieeexplore.ieee.org/xp//article Details.jsp?amumber=4781121。 
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val data = sc.textFile("data/mllib/als/test.data") 
val ratings = data.map(_.split(,") match { case Array(user, item, rate) => 


Rating(user.toInt, item.toInt, rate.toDouble) 


) 
// 使 用 ALS 建立 推荐 模型 
valrank= 10 


val numlterations = 20 
val model = ALS.train(ratings, rank, numlterations, 0.01) 
/ 在 rating 数据 上 评估 模型 


val usersProducts = ratings.map { case Rating(user, product, rate) => 


(user, product) 
} 
val predictions = 
model.predict(usersProducts).map { case Rating(user, product, rate) => 
((user, product), rate) 
} 
val ratesAndPreds = ratings.map { case Rating(user, product, rate) => 
((user, product), rate) 
}.join(predictions) 
val MSE = ratesAndPreds.map { case ((user, product), (71, r2)) => 
val err = (r1 - r2) 
err * err 
}.mean() 
Println("Mean Squared Error = " + MSE) 
model.save(sc, "myModelPath") 
val sameModel = MatrixFactorizationModel.load(sc, "myModelPath") 


如 果 


方法 


评级 矩阵 来 源 于 男 一 个 的 信息 来 源 ( 如 从 其 他 信号 推断 )， 则 可 以 使 用 trainImplicit 


| 


得 到 更 好 的 结果 ， 代 码 片段 如 下 。 


val alpha = 0.01 
val lambda = 0.01 
val model = ALS.trainImplicit(ratings, rank, numlterations, lambda, alpha) 


为 了 运行 上 面 的 应 用 程序 ， 一 定 要 在 构建 文件 时 包含 spark-mllib 作为 一 个 依赖 。 


4.4.6” 聚 类 

聚 类 是 一 个 无 监督 学 习 2 的 方法 ， 其 的 意图 在 于 基于 某 种 相似 性 概念 将 数据 实体 分 成 不 
同 的 子 集 。 聚 类 常用 于 探索 式 分析 或 作为 多 层级 监督 学 习 管 道中 的 一 个 组 件 〈 这 其 中 每 个 筷 
都 对 应 训练 了 不 同 的 分 类 器 和 回归 模型 )。 


MLlib 支持 下 面 5 个 模型 。 


@ 下 -means。 


@ Gaussian mixture。 


@ Power iteration clustering (PIC)。 
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监督 学 习 : unsupervised/earning， 即 事先 没有 任何 训练 样本 ， 而 直接 对 数据 进行 建 模 。 


@ Latent Dirichlet allocation (LDA)。 


@ Streaming k-means。 


MLLib 文 持 多 种 附 类 算法 ， 我 们 将 在 本 节 重 点 介绍 K-means 算法 ， 这 是 将 数据 点 划 
分 为 预期 簇 个 数 的 最 常用 眼 类 算法 之 一 。MLLib 实现 了 K-means++ 的 并 行 化 的 演变 版 本 
K-means||。 该 算法 在 MLLib 中 实现 的 参数 如 表 4-17 所 示 。 

表 4-17 K-means 算法 的 参数 列表 
参数 名 参数 含义 
k 期 望 的 簇 个 数 
ImaxIterations 算法 最 大 友 代 次 数 
initializationMode 初始 化 方法 ， 即 使 用 随机 方法 还 是 通过 K-means|| 方 法 进行 初始 化 
本 运行 K-means 次 数 (K-means 并 不 保证 找到 一 个 全 局 最 优 解 ， 在 给 定数 据 集 上 多 次 运行 得 到 
多 个 结果 时 ， 程 序 将 返回 最 优 的 结果 ) 

initializationSteps K-means| 算 法 的 步 数 

epsilon 即 用 于 认定 K-means 收敛 的 最 小 距离 
【 例 4-63】 中 的 代码 可 在 spark-shell 中 执行 。 在 示例 中 ， 我 们 将 首先 导入 和 解析 输入 数 


据 ， 之 后 使 用 KMeans 对 象 ; 


类 禾 


等 各 数据 点 分 到 两 个 类 簇 中 。 期 望 得 到 的 类 簇 个 数 将 作为 参数 传 


给 算法 ， 然 后 计算 集 内 均 方差 总 和 。 可 通过 增加 k 值 来 降低 该 误差 ， 事 实 上 ， 当 k 的 取 值 理 
想 时 ，WSSSE 图 中 将 会 有 一 个 “低谷 点 ”。 
【 例 4-63】 K-means 算法 应 用 模型 示例 。 
import org.apache.spark.mllib.clustering. {KMeans, KMeansModel} 
import org.apache.spark.mllib.linalg.Vectors 
val data = sc.textFile("data/mllib/kmeans_data.txt") 
val parsedData = data.map(s => Vectors.dense(s.split(' ).map(_.toDouble))).cache() 
// 使 用 KMeans 模型 将 数据 聚 类 为 两 类 
val numClusters = 2 
val numlterations = 20 
val clusters = KMeans.train(parsedData, numClusters, numIterations) 
/ 评估 聚 类 结果 
val WSSSE = clusters.computeCost(parsedData) 
println("Within Set Sum of Squared Errors = " + WSSSE) 
clusters.save(sc, "myModelPath") 
val sameModel = KMeansModel.load(sc, "myModelPath") 
4.4.7 ” 降 维 
降 维 是 减少 所 需要 考虑 变量 个 数 的 过 程 。 它 能 从 原始 的 有 噪音 的 特征 或 压缩 数据 中 提取 
隐藏 特征 ， 同 时 保留 原 有 的 结构 ，MLlib 提供 RowMatrix 用 于 降 维 。 
1. 奇异 值 分 解 (SVD) 
奇异 值 分 解 将 一 个 矩阵 分 解 成 为 VU、 确 和 V3 个 子 和 矩阵 ， 它 们 满足 如 下 几 点 。 
1) UU 是 一 个 正 交 算 阵 ， 其 每 一 个 列 被 称 为 一 个 左 奇异 问 量 。 
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2) 元 是 一 个 对 角 和 矩阵 ， 其 对 角 线 上 元 素 非 负 且 按 降 序 排列 ， 对 角 线 上 的 元 素 被 称 为 奇 
异 值 。 
3) 允 是 一 个 正 交 天 阵 ， 其 每 一 个 列 被 称 为 一 个 右 奇异 向 量 。 
对 于 大 的 和 矩阵， 通常 并 不 需要 进行 完全 的 因 式 分 解 ， 而 只 需要 求 值 靠 前 的 部 分 奇异 值 
和 对 应 的 奇异 癌 量 即 可 。 这 样 能 降低 存储 需求 ， 去 噪声 而 且 降 低 了 子 矩 阵 的 阶 数 。 
假设 保留 前 k 个 奇异 值 ， 那 么 相应 的 子 矩 阵 的 维度 如 下 。 
U:mxk 
DS :kxk 
Vi:inxk 
(1) 性 能 分 析 
假设 n 比 m 要 小 。 奇 异 值 和 右 奇 异 矩 阵 可 从 格拉 姆 矩阵 4”4 的 共 轿 值 和 共 轿 向 量 的 求解 而 
得 出 。 如 果 用 户 通 过 输入 computeU 这 一 参数 指定 了 需求 解 左 奇异 矩阵 VU， 则 该 矩 阵 可 通过 
en 实际 计算 时 ， 程 序 会 自动 根据 计算 的 复杂 度 来 选择 不 同 的 方 
法 来 得 出 结 
AR 那么 会 先 计算 格拉 姆 矩阵 ， 然 后 在 driver 本 地 计算 它 


的 前 XK 个 奇异 值 和 特征 值 。 
O(n 的 存储 ， 外 加 一 次 


算 ， 然 后 将 其 作为 输入 通 
Ar 


以 及 driver 上 存储 的 复杂 度 为 O(n。 
(2) SVD 示例 程序 
MLlib 可 对 行 第 阵 进行 SVD 运算 。 
【 例 4-64】 SVD 应 用 模型 示例 。 


import org.apache.spark.mllib.linalg. 
import org.apache.spark.mllib.linalg. 
import org.apache.spark.mllib.linalg. 


val mat: RowMatrix = ... 


(474) 的 前 


RowMatrix 类 包含 了 该 类 条 


Matrix 
distributed.RowMatrix 


SingularValueDecomposition 


E34 


/ 计算 前 二 十 个 奇异 值 和 对 应 的 奇异 向 


时 


代价 包括 一 次 在 driver 和 各 个 executor 本 地 上 的 一 次 复杂 度 为 
driver 本 地 进行 的 复杂 度 为 On 的 存 
过 ARPACK 来 计 介 
在 driver 上 进行 。 这 个 过 程 的 时 间 复 杂 度 为 0 各， 在 每 个 executor 


嵌 。 和 否则 ， 我 们 将 分 布 式 计 


大 各 特征 值 和 特征 矩阵。ARPACK 的 计 


上 存储 的 复杂 度 为 On)， 


E 阵 。 如 【 例 4-64】 所 示 。 


val svd: SingularValueDecomposition[RowMatrix, Matrix] = mat.computeSVD(20, computeU = true) 


val U: RowMatrix =svd.UWU 是 


-个 RowMatrix 


val s: Vector = svd.s // 奇异 值 被 存储 在 一 个 本 地 密集 向 量 中 
val V: Matrix = svd.VVWYV 是 一 个 本 地 密集 矩阵 
如 果品 定义 为 IndexedRowMatrix， 则 以 上 代码 同样 适用 于 IndexedRowMatrix。 
2. 主 成 分 分 析 
主 成 份 分 析 是 使 用 统计 方法 求 矩 阵 一 个 旋转 的 方法 。 该 旋转 需要 能 最 大 化 矩阵 第 一 坐标 
的 方差 ， 这 同时 也 将 使 得 后 续 坐 标的 方差 也 最 大 化 。 旋 转 后 矩阵 的 每 一 个 列 被 称 作 一 个 主 成 
份 。 主 成 份 分 析 被 广泛 用 于 降 维 中 。 
MLlib 的 SVD 计算 适用 于 行 数 远 多 于 列 数 的 矩阵 。 在 矩阵 中 每 一 行 代表 一 条 面向 行 格 
式 的 存储 记录 。 
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【 例 4-65】 演 示 如 何 对 一 个 RowMatrix 进行 主 成 份 分 机， 然后 利用 分 析 结 果 将 原始 的 向 


量 投影 到 一 


【 例 4-6S】 RowMatrix 主 


个 低 维 衬 


空间 中 。 


成 分 分 析 应 | 


import org.apache.spark.mllib.linalg.Matrix 


] 模 型 示例 。 


import org.apache.spark.mllib.linalg.distributed.RowMatrix 


val mat: RowMatrix = ... 


1/ 计算 前 10 的 主 成 分 


val pc: Matrix = 


dense matrix. 


/ 使 用 前 10 的 主 成 分 将 行 向 量 投影 至 线性 空间 
val projected: RowMatrix = mat.multiply(pc) 
【 例 4-66】 演 示 了 如 何在 源 向 量 上 计算 主 成 分 和 使 用 它 
空间 ， 并 同时 保持 标签 。 
【 例 4-66】 源 向 量 〈source vectors) 主 成 分 分 析 应 用 模型 示例 。 


import org.apache.spark.mllib.regression.LabeledPoint 


import org.apache.spark.mllib.feature.PCA 
val data: RDD[LabeledPoint] = .… 


val pca = newPCA(10).fit(data.map(_.features)) 


val projected = data.map(p => p.copy(features = pca.transform(p.features))) 


4.4.8 ”特征 提取 与 转换 


特征 提取 作为 模式 识 
绍 7 种 有 关 特 生 


维 ， 下 面 介 


1， 词 频 - 逆 文档 转换 (TD-IDF ) 


词 频 - 逆 文档 频率 (TF-IDF)〉 是 一 个 


映 出 语料库 


篇 文档 中 


TF(t ,qd) 是 某 个 词 
如 果 我 们 仅 使 
文档 相关 信息 量 的 i 


| 


常 频 针 
提供 多 少 信息 


意味 着 它 更 不 能 携 下 


量 的 数值 : 


在 这 里 ，|D| 是 语料库 中 文档 总 数 。 


F 的 


到 六 


当然 ， 存 在 


导致 零 除 | 


IDF(1,D) =10g 


在 文本 挖掘 


门 来 将 项 目 相关 的 向 量 降 到 低 维 


mat.computePrincipalComponents(10) // Principal components are stored in a local 


别 系统 的 重要 模块 ， 其 本 质 是 对 原始 特征 数据 进行 茶 种 变换 以 降 


F 提 取 与 转换 的 算法 ， 并 对 算法 的 具体 使 用 进行 说 明 。 


“the” 和 “of”, 
和 带 特 定 文档 的 特定 信息 。 道 文档 频率 就 是 


IDI+1 


由 于 使 / 


直 变 为 0。 请 注意 ， 
题 。 而 词 频 - 


个 平滑 值 


DF(1,D)+!1 
对 数 ， 如 果 一 
添加 到 公式 中 ， 目 的 是 避免 出 现 一 
道 文档 频率 (TF-IDF〉 是 TF 和 IDF 简单 相 乘 : 


个 词 的 重要 性 。 假 定 t 表示 一 个 词 ，d 表示 
t 在 文档 d 中 的 
词 频 来 衡量 重 
司 ， 比 如 英语 中 的 “a”、 


要 性 ， 则 很 容易 过 分 强调 那些 出 现 非 常 频 
如 果 一 个 词 在 在 i 


FP 广 泛 应 用 的 特征 向 量化 方法 ， 它 能 反 
篇 文档 ， 则 词 频 
上 现 次 数 ， 而 文档 频率 DF(t ,D) 是 包含 词 t 的 文档 d 的 数目 。 


每 但 携带 和 


上 


民 少 与 


在 料 库 中 出 现 非 
个 词 能 


个 ) 


TFIDF(t,d,D)=TF(t,d):IDF(,D) 


其他 用 于 衡量 


将 TF 和 IDF 分 开 实 现 。 


个 词 在 所 有 文 


档 中 


于 度量 


量词 频 和 文档 频率 的 变 体 。 在 MLlib 中 ， 为 了 更 好 的 扩 


个 词 


都 出 现 ， 则 
不 在 语料库 


酒 
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我 们 使 


始 特征 被 映射 到 同一 个 哈 希 值 ， 从 而 变 成 同一 个 词 。 为 了 降低 这 种 六 
中 增加 散 列 桶 的 数量 。 默 认 的 特征 维 数 是 2 =1 ,048 ,576。 

词 频 CTF) 和 道 文档 频率 (IDF) 在 HashingTF 和 IDEF 
RDDT[Iterable[_]] 实 例 作 为 输入 。 每 个 记录 都 是 一 个 可 遍历 的 String 或 划 
TF 与 IDF 实现 模型 示例 。 


特征 的 维 数 ， 即 在 哈 硕 对 


【 例 4-67】 


j 散 列 技巧 来 实现 词 频 。 运 月 
然后 基于 映射 索引 值 来 计算 词 
计算 全 局 “ 词 -索引 ”的 代价 


日 一 个 哈 希 函数 将 原始 特 
频 。 这 种 方法 避免 计算 全 局 “ 词 -索引 
党 高 ， 而 这 种 方法 代价 是 会 出 现 潜在 的 哈 希 值 冲突 一 一 即 不 同 原 


import org.apache.spark.rdd.RDD 
import org.apache.spark.SparkContext 


import org.apache.spark.mllib.feature.HashingTF 


import org.apache.spark.mllib.linalg. Vector 


import org.apache.spark.mllib.feature.IDF 


val sc: SparkContext = ... 


// 导入 文档 (每 行 一 个 )》 


val documents: RDD[Seq[String]] = sc.textFile("...").map(_.split(" ").toSeq) 


val hashingTF = new HashingTF() 


val tf: RDD[Vector] = hashingTF.transform(documents) 


/ 从 之 前 的 例子 继续 
tf.cache() 
val idf = new IDF().fit(tf) 


val tfidf: RDD[Vector] = idf.transform(tf) 


然而 ， 应 | 
计算 IDF 向 量 ， 第 二 次 使 用 IDF 来 调整 词 频 。 


2. 词 向 量化 工具 (Word2Vec) 


Word2 Vec 


生成 novel 模式 以 及 使 模型 记 
林 识 别 、 消 靶 、 解 析 、 打 标签 和 机 器 翻译 。 


(1) 


有 用 ， 如 实 


模型 


可 以 使 


一 句子 


| 于 将 词 转换 为 分 布 式 词 向 
words )。 分 布 式 词 向 量 格 式 的 主要 优点 在 于 在 向 量 空间 中 相似 词 转化 的 向 


El 


下 


佑 更 加 健 由 


| o 


] skip-gram 模型 来 实现 Word2Vec。 在 skip-gram 模型 
Ph 最 能 预测 其 环境 的 词 问 量 表示 。 从 数学 


分 布 式 词 向 量 格式 在 很 多 自 


wT，skip-gram 模型 最 大 化 对 数 似 然 均值 为 : 


Lk 


1 
-a >》 log POCOW |w,) 


tf=1 j=-k 


在 这 里 ， 
相关 ，uw 和 vw 表示 词 W 自 


身 及 划 


的 概率 由 下 式 决 定 ; 
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KK 是 训练 窗口 大 小 。 在 skip-gram 模型 中 ， 每 个 ; 
上 下 文 。 在 Softmax 模型 


三 | 


里 


然 语 


司 W 都 与 两 个 向 
站 给 定 词 Wj; 正 硼 


] HashingTF 只 需要 遍历 一 次 数据 ， 而 应 用 IDF 则 需要 遍历 两 次 : 


征 映 射 到 一 个 特征 索引 值 ， 
”了 映射， 而 在 超大 语 料 中 


突 概率 ， 我 们 增加 了 目标 


实现 。HashingTF 接收 一 个 
他 类 型 。 


第 一 次 用 于 


格式 (distributed vector representation of 


运算 ， 使 得 更 易 
言 分 析 应 用 中 很 


百 内 


三 | 
县 


旦 Uw 


PhP， 训 练 目标 是 学 习 到 同 


和 yw 


和 预测 词 wi 


exp(u,, yw ) 
> exp( Vy ) 


在 这 里 ,，V 是 词 量 大 小 。 在 skip-gram 模型 中 使 用 softmax 的 代价 很 高 ， 因 为 logp(wi| w)) 
的 计算 量 随 着 Y 线性 增长 ， 而 Y 很 容易 就 达到 百 万 级 。 为 了 提高 训练 Word2Vec 的 速度 ， 可 
以 使 用 分 softmax 技术 ， 该 方法 可 以 将 计算 logp(wi| wj) 的 复杂 度 降低 到 O(log (V))。 

(2) 示例 程序 

【 例 4-68】 演 示 了 怎样 加 载 文 本 数据 ， 将 其 解析 为 一 个 格式 为 Seq[String] 的 RDD， 构 建 
一 个 实例 Word2Vec， 然 后 将 输入 数据 匹配 为 一 个 Word2VecModel 模型 ， 最 后 展示 了 与 给 定 
词 最 同 义 的 40 个 词 。 为 了 运行 该 示例 ， 首 先 需 要 下 载 text8 数据 并 解压 到 目标 目录 。 在 这 
里 ， 假 定 解压 text8 到 运行 spark-shell 的 目录 。 

【 例 4-68】 Word2Vec 示例 。 


p(w | w;) 


import org.apache.spark._ 

import org.apache.spark.rdd._ 

import org.apache.spark.SparkContext._ 

import org.apache.spark.mllib.feature.{ Word2Vec, Word2VecModel} 

val input = sc.textFile("text8").map(line => line.split(" ").toSeq) 

val word2vec = new Word2 Vec() 

val model = word2vec.fit(input) 

val synonyms = model.findSynonyms("china", 40) 

for((synonym, cosineSimilarity) <- synonyms) { 
printin(s"$synonym $cosineSimilarity") 

} 

model.save(sc, "myModelPath") 


val sameModel = Word2VecModel.load(sc, "myModelPath") 


3. 标准 化 

特征 标准 化 是 在 训练 集 上 对 每 列 使 用 统计 分 析 技 术 ， 将 数据 调整 为 标准 差 的 倍数 以 及 去 
均值 。 这 是 一 种 非常 通用 的 预 处理 步 又。 比如 ， 支 持 向 量 机 中 的 径 向 基 函 数 2 (Radial Basis 
Function，RBF) 内 核 或 LIL2 正则 化 线性 模型 就 在 特征 具有 单位 变化 以 及 零 均 值 时 效果 更 
好 。 

特征 标准 化 能 够 在 优化 过 程 中 加 快 收敛 速度 ， 也 能 够 让 特征 免 于 被 训练 时 发 生 超大 值 剧 
烈 影响 。 

(1) 模型 适 配 

StandardScaler 的 构建 函数 具有 如 下 参数 。 

@ withMean， 默 认 值 为 false。 在 调整 前 将 数据 中 心 化 处 理 。 它 的 输出 是 密集 的 ， 不 能 

工作 于 稀疏 输入 。 
@ withStd， 默 认 值 为 tue。 将 数据 调整 为 标准 差 。 
StandardScaler 提供 一 个 fit 方法 ， 它 接受 RDD[Vector] 格 式 的 输入 ， 进 行 统计 分 析 ， 然 


加 径 向 基 函 数 即 某 种 沿 径 向 对 称 的 标量 函数 。 
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后 输出 一 个 标准 差 的 倍数 以 及 去 均值 化 的 模型 ， 模 型 结果 依赖 于 如 何 配置 StandardScaler。 
它 能 够 将 一 个 Vector 标准 化 ， 也 能 够 将 一 个 RDD[Vector] 


模型 输 


标准 人 


o 


一 个 StandardScaler 模型 ， 


(2) 示例 程序 


【 例 4-69】 演 示 了 如 何 加 载 一 个 LIBSVM 格式 的 数据 集 ， 其 将 特征 标准 化 ， 转 换 后 的 新 


特征 为 标准 差 ， 且 有 单位 方差 及 0 均值 。 


【 例 4-69】 特征 标准 化 应 用 模型 示例 。 


范 数 化 (Normalizer) 将 独立 的 村 


import org.apache.spark.SparkContext._ 


import org.apache.spark.mllib.feature.StandardScaler 


import org.apache.spark.mllib.linalg.Vectors 


import org.apache.spark.mllib.util. MLUtls 
val data = MLUtils.loadLibSVMFile(sc, "data/mllib/sample_libsvm_data.txt") 


val scalerl = new StandardScaler().fit(data.map(x => x.features)) 


I 


A 


val scaler2 = new StandardScaler(withMean = true, withStd = true).fit(data.map(x => x.features)) 


// scaler3 和 scaler2 相同 的 模型 ， 而 且 产生 相同 的 转换 
val scaler3 = new StandardScalerModel(scaler2.std, scaler2.mean) 


val datal = data.map(x => (X.label, scalerl.transform(Xx.features))) 


val data2 = data.map(x => (X.label, scaler2.transform(Vectors.dense(X.features.toArray)))) 


4. 范 数 化 


本 调整 为 具有 Lp 范 数 。 这 是 在 文本 分 类 或 聚 类 中 广泛 


应 用 的 一 个 操作 。 比 如 ， 两 个 L2 化 的 TF-IDF 向 量 ， 其 点 积 就 是 向 量 间 的 余弦 相似 度 。 


Normalizer 的 构建 函数 具有 参数 P,P 在 空间 


FP 泛 化 ，p 默认 等 于 2 


在 Normalizer 中 ， 提 供 transform 方法 ， 它 能 够 将 一 个 Vector 范 数 化 ， 也 能 够 将 一 个 
RDD[Vector] 范 数 化 。 


:土产 
) 主 总 : 


若 输 入 的 范 数 (norm ) 是 0， 它 将 返回 原 值 。 


【 例 4-70】 演示 了 如 何 加 载 一 个 LIBSVM 格式 的 数据 集 ， 将 其 分 别 以 歼 范 数 和 严 范 
数 范 数 化 。 
【 例 4-70】 范 数 化 应 用 模型 示例 。 


特征 选择 允 讨 
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import org.apache.spark.SparkContext._ 


import org.apache.spark.mllib.feature.Normalizer 


import org.apache.spark.mllib.linalg.Vectors 


import org.apache.spark.mllib.util.MLUtils 
val data = MLUtils.loadLibSVMFile(sc, "data/mllib/sample_libsvm_data.txt") 


val normalizerl = new Normalizer() 


val normalizer2 = new Normalizer(p = Double.PositiveInfinity) 


val datal = data.map(x => (x.label, normalizerl.transform(x.features))) 


val data2 = data.map(x => (x.label, normalizer2.transform(x.features))) 


5. 特征 选择 


F 选 择 最 相关 的 特征 


选择 降 低 向 量 空间 的 大 小 ， 反 过 


于 模型 建设 。 特 包 


Sm 


来 ， 降 低 任何 后 续 癌 量 操作 的 复杂 性 。 特 征 选 择 的 数量 可 以 使 用 验证 集 调整 。ChiSqSelector 


代表 卡 方 特征 选择 ， 它 使 用 分 类 特征 操作 标记 数据 .【 例 4-71】 显 示 了 ChiSqSelector 的 基本 
使 用 示例 。 


【 例 4-71】 ChiSqSelector 使 用 示例 。 


import org.apache.spark.SparkContext._ 
import org.apache.spark.mllib.linalg.Vectors 
import org.apache.spark.mllib.regression.LabeledPoint 
import org.apache.spark.mllib.util. MLUtls 
import org.apache.spark.mllib.feature.ChiSqSelector 
/ 导入 libsvm 格式 的 数据 
val data = MLUtils.loadLibSVMFile(sc, "data/mllib/sample_libsvm_data.txt") 
val discretizedData = data.map { lp => 

LabeledPoint(lp.label, Vectors.dense(lp.features.toArray.map { Xx => x/16})) 
} 
// 创建 的 ChiSqSelector 将 会 选择 50 个 特征 
val selector = new ChiSqSelector(50) 
// 创建 ChiSqSelector 模型 (选择 模型 ) 
val transformer = selector.fit(discretizedData) 
// 从 每 个 特征 向 量 中 过 滤 前 50 的 特征 
val filteredData = discretizedData.map { lp => 


LabeledPoint(p.label, transformertransform(lp.features)) 


} 
6. 元 素 的 积 (ElementwiseProduct) 


元 素 的 积 使 用 一 个 “权重 ”向 量 与 输入 的 向 量 相 乘 。 换 句 话说 ， 它 会 用 标量 的 数 对 数据 


产生 结果 向 量 。 


vi Wi VY1W1 
“| 本 | 2 | 过 : 
vN wN vNwN 


ElementwiseProduct 算法 在 构造 器 中 有 参数 w，w: 转换 向 量 。 


集 的 每 一 列 进行 缩放 。 这 代表 了 输入 向 量 之 间 的 Hadamar 乘积 ， 输 入 向 量 ”和 转换 向 量 w 


ElementwiseProduct 实现 了 VectorTransformer，VectorTransformer 可 应 用 加 权 向 量 产生 转 


换 向 量 或 由 一 个 RDD[Vector] 得 到 改变 的 RDD[Vector]。 下 面 的 【 例 4-72】 演 示 了 如 何 使 月 


一 个 转换 向 量 的 值 变 换 问 量 。 
【 例 4-72】 ElementwiseProduct 使 用 示例 。 


import org.apache.spark.SparkContext._ 

import org.apache.spark.mllib.feature.ElementwiseProduct 

import org.apache.spark.mllib.linalg.Vectors 

/ 创建 一 些 向 量 数据 

val data = sc.parallelize(Array(Vectors.dense(1.0, 2.0, 3.0), Vectors.dense(4.0, 5.0, 6.0))) 
val transforming Vector = Vectors.dense(0.0, 1.0, 2.0) 


上 
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val transformer = new ElementwiseProduct(transforming Vector) 
val transformedData = transformer.transform(data) 


val transformedData2 = data.map(x => transformer.transform(x)) 


7. PCA 


可 以 利用 PCA 算法 将 向 量 的 维 数 降低 ， 从 而 实现 特征 转换 ， 上 其 体 原理 可 以 参考 第 4.4.7 的 降 


维 章节 ， 


注 


下 面 将 直接 介绍 如 何 调用 MLlib 中 的 PCA 算法 进行 特征 转换 。 下 面 的 


演示 了 如 何 计算 主 成 分 向 量 并 实现 向 量 降 维 ， 同 时 保持 标签 计算 线性 回归 。 


【 例 4-73】 PCA 使 用 示例 。 


import org.apache.spark.mllib.regression.LinearRegression WithSGD 
import org.apache.spark.mllib.regression.LabeledPoint 
import org.apache.spark.mllib.linalg.Vectors 
import org.apache.spark.mllib.feature.PCA 
val data = sc.textFile("data/mllib/ridge-data/lpsa.data").map { line => 
val parts = line.split(',') 
LabeledPoint(parts(0).toDouble, Vectors.dense(parts(1).split( ).map(_.toDouble))) 
}.cache() 
val splits = data.randomSplit(Array(0.6, 0.4), seed = 11L) 
val training = splits(0).cache() 
val test = splits(1) 
val pca = new PCA(training.first().features.size/2).fit(data.map(_.features)) 
val training_pca = training.map(p => p.copy(features = pca.transform(p.features))) 
val test_pca = test.map(p => p.copy(features = pca.transform(p.features))) 
val numIterations = 100 
val model = LinearRegressionWithSGD.train(training, numIterations) 
val model_pca = LinearRegressionWithSGD.train(training_pca, numlterations) 
val valuesAndPreds = test.map { point => 
val Score = model.predict(point.features) 
(Score, point.label) 
} 
val valuesAndPreds_pca = test_pca.map { point => 
val Score = model_pca.predict(point.features) 
(score, point.label) 
} 
val MSE = valuesAndPreds.map{case(v, p) => math.pow((v - p), 2)}.mean() 
val MSE_pca = valuesAndPreds_pca.map{case(v, p) => math.pow((v - p), 2)}.mean() 
println("Mean Squared Error = " + MSE) 
println("PCA Mean Squared Error =" + MSE_pca) 


4.4.9 ”频繁 模式 挖掘 


挖掘 频繁 模式 的 项 ， 项 集 ， 子 序列 或 者 子 结构 通常 是 分 析 大 型 的 数据 集 的 第 
方法 在 数据 挖掘 领 域 已 经 使 用 了 多年。 挖掘 频 繁 项 集 有 很 多 的 算法 ， 在 MLlib ! 
并 行 的 挖掘 频繁 项 集 的 算法 一 一 FP-growth。 
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A 


【 例 4-73】 


、 


全 上 y 
一 步 ， 这 个 


实现 了 一 个 


FP-growth 算法 是 韩 家 炜 教授 在 他 的 论文 Mining frequent patterns without candidate 
generation 中 提出 的 ， 其 中 FP 代表 频繁 模式 (Frequent Pattern )。 给 定 一 个 交易 数据 集 ， 


FP-growth 算法 分 析 的 第 一 步 就 是 计算 项 的 频率 ， 并 确定 其 中 的 频繁 项 。 虽 然 FP-growth 算 


法 和 Apriori 算法 解决 的 的 是 同一 类 问题 ， 但 是 FP-growth 在 第 二 步 时 采用 前 级 树 〈 也 称 FP- 


tree) 的 数据 结构 去 编码 交易 信息 而 不 像 Apriori 算法 需要 生成 大 量 的 候选 短 频繁 模式 ， 避 免 


了 大 量 候 选集 的 产生 。 第 二 步 之 后 就 可 以 从 FP-tree 中 提取 频繁 项 集 。 在 MLlib 中 ， 实 现 ] 


一 个 并 行 版 本 的 FP-growth 叫做 PFP，PFP 将 FP-tree 的 生成 工作 进行 分 发 ， 使 得 算法 比 单机 
实现 更 加 具有 扩展 性 。 
MLlib 中 FP-growth 的 实现 需要 接受 如 下 的 参数 。 
@ minSupport: 定义 某 个 项 集 的 支持 度 ， 即 定义 项 集 出 现 的 频率 。 举 个 例子 来 说 ， 如 果 
一 个 子 项 在 5 个 交易 数据 中 出 现 了 3 次 ， 那 么 它 的 文 持 度 为 3/5=0.6。 
@ numPartitions: 用 于 分 发 工作 的 分 区 的 数量 。 
下 面 的 【 例 4-74】 调 用 了 MLlib 对 FP-growth 算法 的 具体 实现 FPGrowth 类 。 在 算法 调 


【 例 4-74 】 


前 ， 需 要 一 个 交易 信息 的 JavaRDD， 其 中 包含 原始 的 数据 集 。 调 用 FPGrowth.run 方法 ， 
将 会 返回 存储 着 频繁 子 集 和 其 频率 的 FPGrowthModel。 


Mt 


FPGrowth 方法 示例 。 


import org.apache.spark.rdd.RDD 
import org.apache.spark.mllib.fpm. {FPGrowth, FPGrowth Model} 
val transactions: RDD[Array[String]] = … 
val fpg = new FPGrowth() 
.SetMinSupport(0.2) 
.SetNumPartitions(10) 


val model = fpg.run(transactions) 


model.freqItemsets.collectO.foreach { itemset => 


println(itemset.items.mkString("[", ",", "]")+"," + itemset.freq) 


} 


4.4.10 ”最 优化 算法 

最 优化 方法 (也 称 做 运筹 学 方法 ) 是 近 几 十 年 形成 的 ， 它 主要 运用 数学 方法 研究 各 种 系 
统 的 优化 途径 及 方案 ， 为 决策 者 提供 科学 决策 的 依据 。 最 优化 方法 就 是 为 了 达到 最 优化 目的 
所 提出 的 各 种 求解 方法 。 从 数学 意义 上 说 ， 最 优化 方法 是 一 种 求 极 值 的 方法 ， 即 在 一 组 约束 
为 等 式 或 不 等 式 的 条 件 下 ， 使 系统 的 目标 函数 达到 极 值 ， 即 最 大 值 或 最 小 值 。 在 MLlib 中 实 
现 了 多 个 最 优化 算法 ， 包 括 梯度 下 降 算 法 、 随 机 梯度 下 降 算 法 以 及 L-BFGS 算法 ， 在 这 里 就 


不 再 详细 介绍 各 征 
1. L-BFGS 
MLlib 中 的 L-BFGS 算法 目前 只 有 原始 的 低级 别 优化 。 如 果 想 使 用 L-BFGS 中 的 各 种 机 

器 学 习 算 法 ， 如 线性 回归 和 逻辑 回归 ， 则 必须 通过 目标 函数 的 梯度 ， 并 使 用 优化 器 优化 自 


行 


算法 的 数学 原理 ， 下 面 重点 介绍 如 何在 程序 中 调 


] L-BFGS 算法 。 


SS 


~ 


号 ， 而 不 是 使 用 


LogisticRegressionWithSGD 之 类 的 API 进行 训练 。 下 面 的 【 例 4-68】 是 一 


个 使 用 L-BFGS 算法 的 例子 ，L-BFGS 算法 中 的 LBFGS.runLBFGS 方法 有 如 下 的 几 个 参数 。 
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@ Gradient 是 计算 当前 目标 函数 的 梯度 的 类 ， 其 中 包含 常见 的 损失 函数 〈hinge， 
logistic，least-squares)。Gradient 类 需要 一 个 训练 的 例子 、 它 的 标签 以 及 当前 参数 值 


作为 输入 。 


@ Updater 是 一 个 类 ， 用 来 计算 


目标 函数 的 梯度 和 正规 化 部 分 的 损失 函数 。 


@ numCorrections 是 L-BFGS 更 


新 时 的 更 新 数量 ， 


推荐 使 用 10。 


@ maxNumlterations 是 L-BFGS 可 以 运行 的 最 大 友 代 次 数 。 


@ regParam 是 使 用 


出 


则 化 时 的 正则 化 参数 。 


@ convergenceTol 控制 着 被 判定 为 收敛 前 仍然 允 询 


数 ， 而 且 不 能 太 小 ， 不 然 会 导致 迭代 次 数 过 多 。 


F 的 相对 变化 大 小 。 它 一 般 是 一 个 


L-BFGS 算法 调用 后 返回 的 是 包含 两 个 元 素 的 元 组 ， 第 一 个 元 素 是 一 个 含有 每 个 特征 的 


权重 矩阵 列 ， 第 二 个 元 素 是 一 个 数组 ， 


【 例 4-75】 L-BFGS 算法 示例 。 


I 


import org.apache.spark.SparkContext 


中 包含 为 每 个 迭代 计算 的 损失 。 


import org.apache.spark.mllib.evaluation.BinaryClassificationMetrics 


import org.apache.spark.mllib.linalg.Vectors 


import org.apache.spark.mllib.util. 


MLUtils 


import org.apache.spark.mllib.classification.LogisticRegressionModel 


import org.apache.spark.mllib.optimization. {LBFGS, LogisticGradient, SquaredL2Updater} 
val data = MLUtils.loadLibSVMFile(sc, "data/mllib/sample_libsvm_data.txt") 

val numFeatures = data.take(1)(0).features.size 

val splits = data.randomSplit(Array(0.6, 0.4), seed = 11L) 
/ 将 1 附加 在 测试 集 上 作为 截 距 

val training = splits(0).map(x => (x.label, MLUtils.appendBias(x.features))).cache() 


val test = splits(1) 

val numCorrections = 10 
val convergenceTol = le-4 
val maxNumlterations = 20 
val regParam = 0.1 


val initial WeightsWithIntercept = Vectors.dense(new Array[Doublel mumFeatures + 1)) 


val (weightsWithIntercept, loss) = 
training, 
new LogisticGradient(), 
new SquaredL2Updater(), 
numCorrections， 
convergenceTol, 
maxNumlterations, 
regParam, 
initial Weights WithIntercept) 


LBFGS.runLBFGS( 


val model = new LogisticRegression Model( 
Vectors.dense(weights WithIntercept.toArray.slice(0, weights WithIntercept.size - 1)), 
weightsWithIntercept(weightsWithIntercept.size - 1)) 


model.clearThreshold() 


val ScoreAndLabels = test.map { point => 


val Score = model.predict(point.features) 
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(Score, point.label) 
} 
/ 得 到 评估 权 值 
val metrics =new BinaryClassificationMetrics(ScoreAndLabels) 
val auROC = metrics.areaUnderROC() 
println("Loss of each step in training process") 


loss.foreach(println) 
println("Area under ROC = " + auROC) 


4.4.11 导出 PMML 模式 


MLlib 支持 模型 导出 到 预测 模型 标记 语言 。 表 4-18 概述 了 MLlib 模型 可 以 导出 的 
PMML 及 其 等 效 PMML 模型 。 


表 4-18 MLlib 支持 的 模型 


MLlib 模型 PMML 模型 
KMeansModel ClusteringModel 
LinearRegressionModel RegressionModel (functionName="regression") 
RidgeRegressionModel Regression Model (functionName="regression") 
LassoModel RegressionModel (functionName="regression") 
SVMModel RegressionModel (functionName="classification" normalization Method="none") 
Binary LogisticRegression Model RegressionModel (functionName="classification" normalization Method="logit") 


为 了 将 上 述 文 持 的 模型 导出 为 PMML， 只 需要 调用 model.toPMML 方法 就 可 以 了 。 对 于 
不 文 持 的 模型 ， 则 不 会 发 现 toPMML 方法 ， 而 且 会 殷 出 IlegalArgumentException 异常 。 下 
面 的 【 例 4-76】 完 整地 描述 了 构建 一 个 Kmeans 模型 并 将 其 按照 PMML 格式 打印 的 过 程 。 
【 例 4-76】 构建 Kmeans 并 打印 的 代码 示例 。 


a 


import org.apache.spark.mllib.clustering.KMeans 

import org.apache.spark.mllib.linalg.Vectors 

val data = sc.textFile("data/mllib/kmeans_data.txt") 

val parsedData = data.map(s => Vectors.dense(s.split(' ).map(_.toDouble))).cache() 
// 使 用 KMeans 算法 将 数据 分 为 两 类 

val numClusters = 2 

val numlterations = 20 

val clusters = KMeans.train(parsedData, numClusters, numIterations) 

/ 导出 PMML 

println("PMML Model:\n" + clusters.toPMMID) 


为 了 将 PMML 模型 转换 为 字符 串 类 型 ， 可 以 使 用 如 下 的 方法 。 


/ 将 PMML 格式 的 模型 导出 为 string 
clusters.to PMML 

/ 将 PMML 格式 的 模型 导出 为 本 地 文件 
clusters.toPMML("/tmp/kmeans.xml") 
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Spark。 在 Spark 1.4 


的 操作 ( 


4.S.1 SparkR DataFrame 


/ 将 PMML 格式 的 模型 导出 为 分 布 式 系统 文件 


clusters.toPMMEL(sc,"/tmp/kmeans") 
/ 将 PMML 格式 的 模型 导出 为 输出 
clusters.toPMML(System.out) 


] 45 SparkR 


SparkR 是 一 个 R 语言 包 ， 它 提供 了 轻 量 级 的 方式 ， 使 得 可 以 在 R 语言 中 使 用 Apache 


Da 
MII 


P，SparkR 实现 了 分 布 式 的 data frame， 支 持 类 似 查 询 、 过 滤 以 及 聚合 


类 似 于 R 中 的 data frames: dplyr)， 但 是 这 个 data frame 可 以 操作 大 规模 的 数据 集 。 
下 面 将 具体 介绍 有 关 SparkR 的 内 容 。 


DataFrame 是 数据 组 织 成 


个 很 重要 的 数 ] 


有 和 


多 : 


来 构建 SparkkContext， 然 后 传 入 类 似 于 应 | 
建 SQLContext， 可 以 


SparkContext 会 


如 果 


可 以 通 


个 带 有 列 名 称 的 分 布 式 数据 集 ， 在 SparkR 中 DataFrame 
据 结构 。DataFrame 在 概念 上 和 关系 型 数据 库 中 的 表 类 似 ， 或 者 和 R 语言 中 的 
data frame 类 似 ， 但 是 SparkR 中 的 DataFrame 提供 了 很 多 的 优化 措施 。 构 造 DataFrame 的 方式 
过 结构 化 文件 中 构造 ， 可 以 通过 Hive 中 的 表 构 造 ， 可 以 
者 是 通过 现 有 R 的 data frame 构造 ， 

SparkContext 是 SparkR 的 切入 点 ， 它 使 得 R 程序 和 Spark 集群 互通 


下 


三 
候 


下 面 将 会 介绍 SparkR DataFrames 的 具体 构造 方法 。 


Ne 


通 


sc <- sparkR.init() 


程序 名 称 的 选项 。 女 


自动 地 构建 好 。 下 面 这 段 代 码 是 SparkR 的 初始 


sqlContext <- SparkRSQL.init(sc) 


表 或 者 是 
的 构造 方 


式 。 


1. 通过 本 地 data frame 构造 


通过 外 部 数据 库 构 造 或 


。 可 以 通过 sparkR.init 
上 果 想 使 用 DataFrame， 则 需要 创 


过 SparkContext 来 构造 。 如 果 使 用 


\ 主 


SparkR shell ，SQLContext 和 


EF 细 地 介 乡 


化 代码 。 


有 了 SQLContext 实例 ， 那 么 应 用 程序 就 可 以 通过 本 地 的 R data frame 方式 、Hive 
其 他 数据 源 的 方式 来 创建 DataFrame。 下面 将 六 


这 3 种 SparkR DataFrame 


最 简单 地 创建 DataFrame 是 将 R 的 data frame 转换 成 SparkR DataFrame， 可 以 通过 
createDataFrame 来 创建 ， 并 传 入 本 地 R 的 data frame， 以 此 来 创建 SparkR DataFrame， 下 面 


的 【 例 4 


【 例 4-77 】 
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77】 利 


df <- createDataFrame(sqlContext, faithful) 


# Displays the content of the DataFrame to stdout 


head(df) 

拓 ”eruptions waiting 

大 | 3.600 79 
本 2 1.800 54 
#3 3.333 74 


了 R 中 的 faithful 数据 集 来 构造 DataFrame。 
通过 本 地 data frame 构造 DataFrame 示例 。 


2. 通过 Data Sources 构造 
通过 DataFrame 接口 ，SparkR 文 持 操作 多 种 数据 源 ， 下 面 将 介绍 如 何 通过 Data Sources 提 
供 的 方法 来 加 载 和 保存 数据 。 
Data Sources 中 创建 DataFrame 的 一 般 方法 是 使 用 read.df， 这 个 方法 需要 传 入 
SQLContext、 需 要 加 载 的 文件 路 径 以 及 数据 源 的 类 型 。SparkR 内 置 文 持 读 取 JSON 和 
Parquet 文件 ， 而 且 通 过 Spark Packages， 可 以 读 取 很 多 类 型 的 数据 ， 比 如 CSV 和 Avro 文 
件 。 这 些 Spark Packages 在 程序 中 既 可 以 通过 在 spark-submit 或 sparkR 命令 中 指定 添加 ， 也 
可 以 在 创建 SparkContext 时 通过 init 指定 加 载 包 ， 就 像 如 下 代码 中 演示 的 这 样 。 


sc <- sparkR.init(sparkPackages="com.databricks:spark-csv_2.11:1.0.3") 
sqlContext <- SparkRSQL.init(sc) 


下 面 的 【 例 4-78】 是 介绍 如 何 读 取 JSON 文件 ， 注 意 ， 这 里 使 用 的 文件 不 是 典型 的 
JSON 文件 。 每 行文 件 必 须 包 含 一 个 分 隔 符 、 自 包含 有 效 的 JSON 对 象 ， 如 果 使 用 一 般 格式 
的 多 行 JSON 文件 将 会 导致 错误 。 

【 例 4-78】 通过 Data Sources 构造 DataFrame 示例 。 


people <- read.df(sqglContext, "./examples/src/main/resources/people.json", "json") 
head(people) 

失 age name 

#1 NA Michael 

失 2 30 Andy 

#3 19 Justin 

# SparkR automatically infers the schema from the JSON file 
printSchema(people) 

# root 

# |--age: integer (nullable = true) 

# |-- name: string (nullable = true) 


Data Sources API 还 可 以 将 DataFrame 保存 成 多 种 的 文件 格式 ， 比 如 可 以 通过 write.df 方 
法 将 上 面 的 DataFrame 保存 成 Parquet 文件 ， 代 码 如 下 。 


write.df(people, path="people.parquet", source="parquet", mode="overwrite") 


3. 通过 Hive tables 构造 
也 可 以 通过 Hive 表 来 创建 SparkR DataFrame ， 为 了 达到 这 个 目的 ， 需 要 创 妈 
HiveContext， 因 为 可 以 通过 Hive Context 来 访问 Hive MetaStore 中 的 表 。 注 意 ，Spark 对 
Hive 提供 了 内 置 的 支持 ，SQLContext 和 HiveContext 具体 支持 的 功能 略 有 区 别 。 下 面 的 
口 


【 例 4-79】 是 通过 Hive tables 构建 DataFrames 的 具体 过 程 。 
【 例 4-79】 通过 Hive tables 构建 DataFrame 的 过 程 示例 。 


tty 


# sc is an existing SparkContext. 

hiveContext <- sparkRHive.init(sc) 

sql(hiveContext, "CREATE TABLE IF NOT EXISTS src (key INT, value STRING)") 

sql(hiveContext, "LOAD DATA LOCAL INPATH ‘examples/src/main/resources/kv1.txt' INTO TABLE 
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sre" 
# Queries can be expressed in HiveQL. 
results <- hiveContext.sgl("FROM src SELECT key, value) 
# results is now a DataFrame 
head(results) 
## key value 
## 1 238 val_238 
##2 86 val 86 
##3311 val_311 


4.5.2 ”DataFrame 的 相关 操作 


在 4.5.1 节 中 讲解 了 SparkR DataFrame 的 构造 过 程 ， 这 一 小 节 中 将 继续 介绍 DataFrame， 重 
点 介绍 在 DataFrame 上 的 操作 。SparkR DataFrame 中 提供 了 大 量 操作 结构 化 数据 的 函数 ， 这 里 
仅仅 列 出 其 中 一 小 部 分 ， 详 细 的 API 可 以 参见 SparkR 的 API 文档 。 下 面 将 直接 列 出 操作 
SparkR DataFrame 的 例子 ， 以 便 读者 在 程序 中 直接 使 用 。 
【 例 4-80】 选择 行 和 列 的 示例 。 


轩 


| 由 


# Create the DataFrame 

df <- createDataFrame(sqlContext, faithful) 

# Get basic information about the DataFrame 

df 

## DataFrame[eruptions:double, waiting:double] 
# Select only the "eruptions" column 
head(select(df, df$eruptions)) 


失 ”eruptions 


大 1 3.600 
撩 2 1.800 
#3 3.333 


# You can also pass in column name as strings 

head(select(df, "eruptions")) 

# Filter the DataFrame to only retain rows with wait times shorter than $50 mins 
head(filter(df, df$waiting < 50)) 


拓 ”eruptions waiting 


村 1 1.750 47 
#2 1.750 47 
#3 1.867 48 


SparkR DataFrame 支持 一 些 常用 函数 用 于 在 分 组 后 聚合 数据 ， 例 如 可 以 利用 faithful 数 
据 集 计 算 直 方 图 的 等 待 时 间 ， 如 【 例 4-81】 所 示 。 
【 例 4-81】 分 组 后 聚合 示例 。 


人 


# We use the "nm operator to count the number of times each waiting time appears 
head(summarize(groupBy(df, df$waiting), count = n(df$waiting))) 

拓 ”waiting count 

大 | 81 13 
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枚 2 60 6 

拓 3 68 1 

# We can also sort the output from the aggregation to get the most common waiting times 
waiting_counts <- summarize(groupBy(df, df$waiting), count = n(df$waiting)) 
head(arrange(waiting_counts, desc(waiting_counts$count))) 


拓 ”waiting count 


#1 78 15 
#2 83 14 
#3 81 13 


SparkR 还 提供 了 许多 函数 ， 可 以 直接 应 用 于 列 中 数据 处 理 和 聚合 。 下 面 的 【 例 4-82】 
显示 了 基本 的 算术 函数 的 使 用 。 
【 例 4-82】 列 上 的 数据 操作 示例 。 


# Convert waiting time from hours to seconds. 
# Note that we can assign this to a new column in the same DataFrame 


df$waiting_secs <- df$waiting * 60 


head(df) 

拓 ”eruptions waiting waiting_secs 

大 | 3.600 79 4740 
撩 2 1.800 54 3240 
#3 3.333 74 4440 


4.5.3 从 SparkR 运行 SQL 查询 


SparkR DataFrame 也 可 以 在 Spark SQL 中 注册 成 临时 表 。 将 DataFrame 注册 成 表 可 以 允 


许 才 


E 数 据 集 上 运行 SQL 查询 。sql 函数 可 以 直接 运行 SQL 查询 ， 而 且 返 回 的 结构 是 


DataFrame。 


【 例 4-83】 从 SparkR 运行 SQL 查询 示例 。 


# Load a JSON file 

people <- read.df(sqglContext, "./examples/src/main/resources/people.json", "json") 

# Register this DataFrame as a table. 

registerTempTable(people, "people") 

# SQL statements can be run by using the sql method 

teenagers <- sql(sqlContext, "SELECT name FROM people WHERE age >= 13 AND age <= 19") 
head(teenagers) 

拓 name 

拓 1 Justin 


153 


第 5 章 Spark 系统 配置 与 调 优 


介绍 完 Spark 基本 编程 技巧 和 四 大 应 用 框架 后 ， 读 者 已 经 可 以 针对 实际 问题 应 用 Spark 
技术 了 ， 但 初学 者 在 应 用 的 过 程 中 容易 出 现 内 存 溢出 和 效率 不 高 等 问题 。 一 般 来 说 系统 配置 
与 调 优 工作 是 针对 有 具体 问题 来 具体 分 析 ， 没 有 通用 的 方法 。 当 程序 能 基本 正常 运行 时 ， 为 了 
使 程序 更 高 效 、 更 省 空间 ， 就 需要 用 户 通过 调度 与 分 区 、 内 存 存储 与 网 络 传输 3 个 主要 方向 
进行 优化 。 下 面 将 介绍 常见 的 Spark 系统 配置 和 调 优 方法 。 


] 5.1 ak 运行 监控 


Spark 运行 过 程 中 的 状态 监控 除了 可 以 通过 Web UI、Driver 控制 台 日 志 、logs 文件 夹 日 
志 、work 文件 夹 日 志 外 ， 还 可 以 使 用 专门 的 Profiler 监控 工具 来 进行 。Profiler 工具 分 为 
JVM 方面 的 Profiler 工具 和 集群 方面 的 Profiler 方法 。 

1. Web Ul 监控 
通过 Web UI 控制 台 可 以 查看 任务 运行 的 基本 人 信息， 包括 如 下 内 容 。 

1) 调度 器 运行 阶段 和 task 信息 。 

2) RDD 大 小 和 内 存 使 用 情况 信息 。 

3) 系统 环境 变量 。 

4) 执行 器 的 运行 状态 。 

读者 可 以 通过 在 浏览 器 输入 “http://<driver-node>:4040” 查 看 应 用 信息 。 如 果 在 一 个 主 
机 上 运行 多 个 SparkContext， 那 么 端口 会 因为 被 占用 而 自动 往 后 顺延 《如 4040、4041、 
4042， 依 此 类 推 )。 注 意 在 Web UI 展示 的 信息 默认 在 应 用 运行 的 时 候 才 能 查看 。 如 果 需 要 将 
它们 持久 化 存储 待 以 后 查看 ， 则 可 以 在 任务 运行 前 将 spark.eventLog.enabled 设置 为 tue， 这 
样 任务 信息 就 会 持久 化 到 指定 文件 来 ， 后 面 将 进一步 解释 该 操作 方法 。 


' 


Spak: YY Jobs Stages Storage Environment Executors Spark shell applicatis 


Spark Jobs (?) 


Total Uptime; 3.2 min 
Scheduling Mode: FIFO 
Completed Jobs: 2 


» Event Timeline 
Completed Jobs (2) 


Jobld Description Submitted Duration Stages: Succeeded/Total Tasks (for all stages): Succeeded/Total 
1 collect at <console>:26 2015/08/07 11:16:14 51 ms 1 | 
0 collect at <console>-24 2015/08/07 11:15:02 02s 11 LE 


图 5-1 通过 Web UI 监控 应 用 状态 


2. Driver 控制 台 监 控 

在 spark-shell 中 或 spark-submit 模式 提交 job 后 ，Driver 控制 台 在 任务 执行 过 程 中 会 输出 
各 种 日 志 信息 ， 包 括 不 同 级 别 的 提示 、 运 算 过 程 中 不 同 组 件 的 实时 运行 状态 、 不 同 task 执行 
的 结果 等 ， 如 图 5-2 所 示 。 如 果 程 序 出 错 ， 一 般 先 通过 Driver 日 志 查 看 问题 原因 ， 如 果 想 看 
细节 原因 ， 则 可 以 查看 work 的 logs 日 志 。 调 整 Spark 日 志 级 别 的 配置 文件 是 
“$SPARK_HOME/conflog4j. properties”， 默 认 级 别 是 INFO， 如 果 将 其 改 为 DEBUG， 那 么 有 
的 信息 还 没 看 完 ， 就 被 大 量 的 心跳 检测 日 志 给 淹没 了 ， 所 以 可 以 根据 实际 情况 自行 调整 日 
志 级 别 。 


la> val « 


图 5-2 Driver 控制 台 输 出 的 信息 


3. log 文件 夹 监控 

每 个 slave 节点 上 ， 作 业 运 行 的 日 志 也 会 详细 的 记录 到 默认 的 SPARK_HOME/work 目录 
下 。 每 个 作业 会 对 应 两 个 文件 ，stdout 和 stderr， 包 含 了 控制 台 上 的 所 有 的 历史 输出 。 

4. 历史 服务 器 

如 果 Spark 运行 在 Mesos 或 者 YARN 上 ， 通 过 Spark 的 历史 服务 器 仍然 可 以 重建 任务 执 
行 结束 的 应 用 UI， 只 要 历史 服务 器 存 有 应 用 程序 执行 的 事件 日 志 即 可 。 

要 使 用 历史 服务 器 ， 可 以 在 spark-defaults.conf 下 添加 并 配置 spark.eventLog.enabled、 
spark.eventLog.dir 和 spark.eventLog.compress 信息 ， 如 图 5-3 所 示 ， 然 后 在 spark-env.sh 增加 
相关 的 SPARK_HISTORY_OPTS 配置 信息 ， 如 图 5-4 所 示 ， 以 上 信息 配置 好 后 在 SPARK_ 
HOME/sbin 下 执行 ./start-history-server.sh 即 可 局 动 日 志 服 务 器 。 


ubmit. 


ds 


图 5-3 配置 spark-defaults 文件 信息 
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5. JVM 监控 


JVM 监控 主要 包括 Yourkit、 


(1) Yourkit 


YourKit Java Profiler 是 
很 困难 的 ， 然 而 YourKi 
为 专业 的 Java 和 .NET 开发 者 提供 优良 的 性 


析 是 


(2) Jconsole 

Jconsole 
Java 平台 的 应 

(3) Jmap 


Jmap 是 Java 虚拟 机 本 身 自 : 
有 时 候 也 生成 heapdump 或 dump 文 


执行 队列 、Java 坎 
(4) Jstack 


条 


EE 是 一 个 基于 


I 永久 代 


Jstack 主要 用 了 
Jstack 可 以 定位 到 线程 堆栈 ， 根 据 扒 栈 信 ， 
的 较 多 。 如 果 Java 程序 崩 
Java 栈 和 本 地 栈 的 信息 ， 


优 ! 


使 朋 


F 查 


看 某 Java 进 


从 而 可 以 轻 I 人世 


图 5-4 配置 spark-env 文件 信 ， 


JMX 的 监视 工具 。 
程序 ， 分 析 的 信 ， 


昌 包 括 性 全 


带 的 一 利 


HH 


它 使 用 


[3 


Java 


Co 


Eb 信息 


内 存 映 像 命令 。 使 用 
F。Jmap 不 仅 


与 资源 耗费 信息 


Jmap 
口 ] 


仅 


的 详细 信 


息 ， 如 空 


间 使 


省 生成 core 文件 
也 获知 程序 是 如 何 骨 溃 以 及 在 何 处 发 生 问题 。 


月 


core file 和 远程 调试 服务 的 Java 堆栈 信息 。 
息 可 以 定位 到 具体 代码 ， 所 以 它 在 JVM 改 


虚拟 机 的 JMX 机 全 


j 以 获取 dump 文件 
率 以 及 当时 所 使 用 的 收集 器 种 类 。 


分 


来 


一 习 


站 


命令 可 以 4 
， 还 可 以 查询 


自 


局 


县 


，Jstack J 


Jstack | 


Native Stack 的 信息 。 
6. 集群 监控 工具 


集群 监控 工 
(1) Ganglia 


Ganglia 于 2000 年 诞生 于 加 州 大 学 伯克利 分 校 ， 
计 的 可 扩 
为 它 巧妙 的 数据 结构 和 算法 能 让 每 个 被 监控 节 


算 系 统 设 
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展 的 分 布 


[ 具 还 可 以 监控 正在 运行 的 Java 程序 状态 ， 


具 主 要 包括 Ganglia 和 Ambaria 等 ， 下 面 主要 介 


二 
候 


6 式 监控 系统 。' 


它 基 于 


Pe 


的 资源 消耗 达到 


[oN 


一 个 很 低 的 水 平 。 


可 以 用 来 获得 core 


种 监控 工具 


-SG 


召 这 


个 专门 为 集群 和 网 格 这 类 高 性 
于 分 层 监 控 体 系 ， 色 


# 针 对 多 集群 同时 监 


析 3 


存 的 章 


Jconsole 工具 以 及 JMap 和 JStack 命令 
此 界 领先 的 Java 和 .NET 的 剖析 工具 。 一 般 来 说 CPU 和 内 
t 创造 出 了 革命 性 的 前 析 工 具 ， 其 主要 应 用 在 研发 和 生产 阶段 ， 
能 分 析 功 能 


尊 


运行 在 


成 堆 转 储 快照 ， 


finalize 


FE 能 调 
文件 的 
另外 ， 


看 到 当时 运行 的 Java 程序 的 Java Stack 和 


能 计 
因 


-ee 


jE。 


它 已 经 被 


世界 上 数 千 集 群 所 使 用 。 


要 了 解 Ganglia， 可 以 先 了 解 它 的 基本 组 成 结构 ， 包 括 Gmond、Gmetad、RDD tool 和 基 


于 PHP 的 Web Server， 下 面 将 逐一 介绍 。 


1) Gmond。Gmond 在 Ganglia 中 可 以 看 作 是 监控 守护 进 


呈 。 这 是 一 个 很 小 的 安装 在 每 


个 需要 被 监控 的 节点 上 的 服务 。 在 节点 中 Gmond 线程 会 搜集 各 类 信息 ， 包 括 CPU 消耗 、 内 
存 消耗 以 及 负载 等 信息 ， 然 后 把 这 些 信息 通过 TCP 以 XML 格式 传输 。 此 外 Gmond 是 多 线 


程 的 ， 其 主要 Gmond 配置 文件 信息 在 /etc/gmond.conf 中 。 


2) Gmetad。Gmetad 是 一 个 从 其 他 Gmetad 守护 进程 和 所 有 Gmond 进程 收集 数据 的 
进程 。Gmetad 将 收集 的 数据 以 RRD (Round Robin Data Base) 形式 进行 存储 。Gmetad 


的 主要 配置 文件 在 /etc/Gmetad.conf 中 ， 在 每 个 集群 中 至 少 需要 一 


个 节点 安装 Gmetad 守 


护 进程 ， 集 群 中 的 这 个 Gmetad 进程 负责 收集 该 集群 中 各 节点 的 Gmond 进程 发 送 的 监测 


咎 


日 性 \o 


3) RDD tool。Ganglia 使 用 RDD tool 来 储存 它 的 数据 ， 这 是 一 个 优秀 的 开源 数据 库 工 


具 。RDD tool 按时 间 层 级 进行 监控 信息 统计 ， 依 次 为 每 小 时 到 每 年 这 几 个 时 间 梯 度 。RDD 
tool 会 使 用 这 些 数据 进行 画图 ， 它 是 Ganglia 中 画图 的 核心 组 件 


4) Web Server。 在 拥有 以 上 3 个 组 件 之 后 ， 在 客户 端 显示 监控 


言 息 还 需要 Web Server， 


Ganglia 中 的 Web Server 是 基于 PHP 语言 ， 主 要 用 来 把 RDD tool 画 的 图 进行 展示 ， 一 般 选 


择 使 用 Apache 作为 监控 信息 展示 服务 器 。 


其 整体 架构 图 如 图 5-5 所 示 ， 可 以 看 出 这 是 一 个 分 层级 监控 系统 ， 根 据 Gmetad 可 以 搜 


集 其 他 集群 中 Gmetad 收集 到 的 本 地 集群 的 数据 ， 在 一 个 Web 端 就 能 同时 监控 不 同 集群 的 运 
行 状态 信息 。 
二 
Apache 十 
服务 器 
RDD Tool 
服务 器 
Gmetad 


集群 2 


服务 器 


Gmond 


服务 器 。 服务 器 。 ”服务 器 


Gmond Gmond Gmond 


图 5-5 ”Ganglia 系统 架构 


服务 器 


Gmond 
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2. Ambaria 


Ambari 是 壬 


作 ， 
与 监控 。 


Ambari 所 采 
ambari-server。 Ambari 利 ) 
同时 ambari-agent 还 会 依赖 Ruby,、Puppet 和 Facter 等 工 
型 的 Server/Client 模式 ， 能 够 集中 式 管 理 
Python 写 的 一 个 节点 资源 采 


例如 操作 系统 和 主机 信息 等 。! 
好 地 采集 到 节点 信息 。 此 外 Ambari 还 利用 
些 更 专业 的 工具 来 监控 集群 状况 。 


管理 工具 ， 也 是 


要 语言 是 Ruby。Facter 是 


Hortonworks 主导 的 ] 


下 源 项 目 


| 


主要 


属于 Apache 基金 下 管理 的 项 目 ， 它 最 初 用 于 Hadoop 系统 运 维 


用 的 架构 是 Server/Client 的 模式 ， 其 主要 | 


他 工业 


| 52 Spark 配置 参数 


在 Spark 开发 中 ， 需 要 针对 
E 级 也 不 同 ， 优 9 


法 不 同 则 优 多 


置 方式 。 下 


面 


E 级 | 


详细 介绍 配置 参数 的 这 


1. SparkConf 方式 


Spark 的 属 怕 
Conf 对 象 或 者 Java 系统 配置 来 进行 。 在 代码 中 添加 属 改 
FE， 代码 如 下 。 


改 属 怕 


| 


界 使 ) 


于 ambari-agent 主要 是 


成 熟 的 工 


~ 


于 Hadoop 分 布 式 集群 的 配置 管理 工 
也 支持 Spark 集群 安装 


~ 


两 部 分 组 成 : ambari-agent 和 
， 例 如 依赖 Python 的 ambari-server， 
具 ， 其 中 Puppet 是 分 布 式 集群 配置 


分 布 式 集群 的 安装 配置 部 署 ， 主 


库 ， 用 于 采集 节点 的 系统 信息 ， 


化 


人 


] Python 写 的 ， 因 此 用 Facter 可 以 很 


3 种 方法 。 


Ez 


FE 控 制 大 多 数 应 | 


的 配置 ， 且 


时 


val conf = new SparkConf() 
.set Master("local[2]") 
.SetAppName("CountingSheep") 


他 一 些 监控 工 


时 性 是 对 每 一 个 应 ) 


如 Nagios 和 Ganglia， 使 用 这 


问题 实际 特点 以 及 运行 日 志 来 进行 配置 参数 的 选择 ， 配 置 方 
高 到 低 依次 是 SparkConf 方式 、 命 令 行 参 数 方式 和 文件 配 


单独 配置 ， 可 以 通过 Spark 


.set("spark.executor.memory", "lg") 


val sc = new SparkContext(conf) 


2. 命令 行 参 数 方式 


在 一 些 情 


在 使 月 


况 下 ， 如 果 不 希 望 便 编 


码 某 些 属 怕 


日 spark-submit 或 spark-shell 提交 应 


程序 的 时 ， 


E， 那 么 


[> 


需要 在 SparkContext 定义 之 前 修 


可 以 采取 动态 加 载 方式 。 这 种 方式 是 


命令 行 参数 提交 ， 代 码 如 下 。 


/bin/spark-submit --name "My app" --master local[4] --conf spark.shuffle.spill=false 
--Conf "spark.executor.extraJavaOptions=-XX:+PrintGCDetails -XX:+PrintGCTimeStamps" myApp.jar 


3. 文件 配置 方式 


该 方式 将 属 
文件 中 ， 一 个 配 


怕 


配置 项 以 键 值 


Poa 


export SPARK_ HOME=/usr/local/spark 
export HADOOP_HOME=/usr/local/hadoop 
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对 方式 写 入 conf/spark-env.sh 或 conf/spark-defaults.conf 文本 
置 项 占 一 行 ， 代 码 如 下 。 


5.2.1 ”应 用 属性 


i i 包括 应 用 名 称 、 驱 动 内 存 、 执 行 嚣 内存、 运行 
核心 数 、 日 志 级 别 和 master 地 址 等 信息 ， 如 表 5-1 所 示 。 
表 S-1 Spark 应 用 属性 
属 性 名 默 认 值 含义 
spark.app.name none 应 用 的 名 称 ， 会 出 现在 UI 和 日 志 中 
spark.driver.cores 1 驱动 进程 使 用 的 核心 数 ， 仅 用 于 集群 模式 
spark.driver.maxResultSize lg 每 个 Action 操作 后 所 有 序列 化 分 区 的 大 小 限制 
spark.driver.memory 512MB driver 进程 使 用 的 内 存量 
spark.executor.memory 512MB 每 个 执行 器 进程 使 用 的 内 存量 
spark.extraListeners none 一 系列 用 逗号 分 隔 的 实现 SparkListener 接口 的 类 
总 二 /nh Sh 中 有 来 丰 放 ， mp 输出 和 RDD 持久 化 的 目录 ， 这 里 也 可 以 
逗号 分 隔 方式 配置 多 个 存放 目录 
spark.logConf false 当 SparkContext 启动 后 将 SparkConf 信息 以 Info 级 别 记录 
spark.master none 集群 管理 器 联系 的 master 地 址 


从 表 5-1 1! 
数 、 存 储 目 录 等 信 


冰 于 | 百 息 O 
运行 环境 属性 


S.2.2 


可 以 看 到 应 用 属 


性 主要 配置 Spark 应 


Spark 主要 的 运行 环境 


属性 如 表 5-2 所 示 。 


名称 及 系统 架构 中 组 件 


的 内 存 、 核 心 


表 5-2 Spark 运行 环境 属性 
属 性 名 默认 值 含义 
driver 的 额外 路 径 入 口 。 注 意 在 Client 模式 ， 这 个 配置 不 能 通过 应 用 中 的 
spark.driver.extraClassPath none SparkConf 来 配置 。 此 外 还 可 以 在 命令 行 中 使 用 --driver-library-path 或 配置 
文件 中 配置 

spark.driver.extraJavaOptions none driver 的 额外 JVM 可 逸 配 置 。 同 样 在 Client 模式 不 能 通过 SparkConf 来 
spark. 有 ptions 配置 
spark.driver.extraLibraryPath none 当月 动 driver 的 TVM 时 加 载 这 一 路 径 。 同 样 在 Client 模式 不 能 通过 
SP >” SparkConf 来 配置 
spark.executor.extraClassPath none executor 的 类 路 径 入 口 ， 这 个 属性 主要 为 了 向 后 兼容 老 版 本 的 Spark， 
et 户 不 需要 设置 这 个 选项 
eo ey Ae executor 的 额外 JVM 可 选 配置 。 注 意 使 用 这 个 属性 配置 Spark 属性 和 堆 
Se 大 小 是 不 合法 的 

he ee oN QED ling.maxReta none 设置 系统 近期 的 日 志文 件数 目 ， 老 的 文件 会 被 删除 
spark.executor.logs.rolling.maxSize none 设置 executor 的 日 志文 件 大 小 
P 8 
Wee ee 设置 executor 日 志 打 印 策 略 。 可 以 是 基于 时 间 的 也 可 以 是 基于 文件 大 小 
Pe EY 的 日 志 打 印 

Pn ling.time.inte daily executor 打印 日 志 的 周期 

naexecutorEnv[EnvironmentVa | 。 none | 给 executor 设置 环境 变量 ， 用 户 可 以 设置 多 个 环境 变量 
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属 性 名 默认 值 含 义 
spark.python.profile false 在 包含 Phthon 的 work 上 启动 断面 (Profile) 分 析 
spark.python.profile.dump none 在 driver 中 设置 断面 分 析 文 件 的 路 径 ， 文 件 是 在 driver 关闭 前 生成 
spark.python.worker.memory 512MB 在 aggregation 过 程 中 每 个 Phthon worker 使 用 的 内 存 数 
spark.python.worker.reuse true = 是 否 重 和 orker， 如 果 是 ， 则 会 全 本 定 所 的 Wo 四 
不 是 fork 一 个 进程 给 每 个 Python task， 这 个 属性 用 于 广播 量 很 大 的 情况 


从 表 中 可 以 看 出 这 里 主要 配置 的 是 driver 和 executor 的 类 加 载 目录 、 库 加 载 目录 以 及 


JVM 的 配置 信息 等 ， 同 时 针对 使 用 Python 语言 版 本 的 Spark 有 一 些 可 配置 选项 。 
5.2.3 Shuffle 操作 属性 
shuffle 的 属性 配置 如 表 5-3 所 示 。 
表 5-3 shuffle 的 配置 属性 
属 性 名 默认 值 含义 
reduce 任务 从 map 端 fetch 出 的 数据 量 大 小 ， 这 是 因为 要 创建 一 个 
spark.reducer.maxSizeInFligh 48MB ge 六 i s 
Pe STOP RR Mb buffer 来 接收 它们 ， 除 非 本 机 内 存 很 大 ， 一 般 不 需要 调 大 这 个 属性 
spark.shuffle. ge 传输 shuffle 数据 和 缓存 执行 器 之 间 的 数据 块 。 这 里 有 两 种 实现 ，netty 
blockTransferService Y 和 nio。 基 于 netty 的 块 传输 会 更 简单 高 效 ， 在 1.2 版 本 后 成 为 默认 选项 
spark.shuffle.compress true 是 否 压缩 map 输出 的 文件 ， 压 缩 会 用 spark.io.compression.codec 
如 果 设 置 为 tue， 那 么 会 整合 shuffle 过 程 中 的 文件 ， 输 出 更 少 的 文件 到 
spark.shuffle.consolidateFiles false reduce 端 ， 这 样 能 在 大 量 reduce 任务 的 情况 下 提升 shuffle 过 程 中 文件 系 
统 的 性 能 
spark.shuffle.file.buffer 32kB 内 存 中 shuffle 文件 输出 存储 所 使 用 的 buffer 大 小 
( 仅 限 netty 模式 ) 由 于 IO 原因 文件 接收 失败 ， 导 致 自动 重新 接收 的 最 
次 站 村 长 时 间 络 连接 问题 的 情 ; 重 接收 策略 能 让 
spark. shuffle io.maxRetries 3 大 次 数 。 在 面 对 长 时 间 GC 或 网 络 连接 问题 的 情况 下 ， 重 接收 策略 能 让 大 
量 shuffle 过 程 更 稳定 
spark shuffle io ( 仅 限 netty 模式 ) 重用 主机 之 间 的 连接 ， 这 样 会 减少 构建 大 型 集群 中 连 
DC ondeti on 1 接 的 开销 。 对 于 有 很 多 磁盘 但 主机 很 少 的 情况 下 ， 为 了 充分 使 用 磁盘 会 提 
高 这 一 属性 值 
ee ( 仅 限 netty 模式 ) 在 shuffle 和 绥 存 块 传输 过 程 中 ， 堆 外 的 buffer 被 使 
PreferDirectBufs true ， 用 来 减少 垃圾 收集 过 程 。 对 于 堆 外 内 存 很 紧张 的 情况 下 ， 用 户 可 以 将 
其 关闭 ， 以 让 所 有 通信 过 程 数 据 都 在 Java 堆 中 进行 
。 ( 仅 限 netty 模式 ) fetch 重 试 过 程 的 间隔 时 间 ， 重 试 过 程 的 最 大 延迟 是 
spark.shuffle.io.retryWait 5s 坟 . en 
15 秒 ， maxRetries * retryWait” 计 算得 出 
a a 该 实现 用 来 shuffle 数据 。 这 里 有 两 种 实现 ，sort 和 hash。 基 于 sort 的 
A shuffle 过 程 在 1.2 版 本 后 是 默认 的 配置 。 
在 shuffle 过 程 中 ， 配 置 Java 堆 的 比例 来 进行 aggregation 和 cogroup 过 
spark.shuffle.memoryFraction 02 程 。 如 果 spark.shuffle.spil 为 ttue， 则 这 个 属性 生效 ， 超 过 该 比例 的 数据 被 
.| 溢出 到 磁盘 。 如 果 溢 出 情况 频繁 发 生 ， 则 考虑 提高 该 属性 值 
spark.shuffle.sort 200 在 基于 排序 的 shuffle 过 程 中 ， 如 果 没 有 map 端的 aggregation， 则 避免 
.bypassMergeThreshold 合并 排序 数据 
ct ha 如 果 为 tue， 那 么 在 reduce 过 程 中 限制 溢出 到 磁盘 的 数据 ， 溢 出 的 阔 值 
spark.shuffle.spill true Oe 
spark.shuffle.memoryFraction 决定 
spark.shuffle.spill.compress true 是 否 压缩 shuffle 过 程 溢 出 的 数据 


从 表 中 读者 可 以 看 出 ， 在 shuffle 过 程 中 有 很 多 地 方 可 以 优化 ， 例 如 spark.shuffle. 


memoryFraction、spark.shuffle.manager 和 spark.shuffle.spill.compress 


际 硬 件 条 件 和 程序 情况 来 调整 
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悍 性 笠 
时 性 等 


。 这 需要 根据 实 


s.2.4 ”压缩 与 序列 化 属性 
表 5-4 所 示 为 压缩 与 序列 化 方面 的 属性 。 


表 5-4 压缩 与 序列 化 配置 属性 


属 性 名 默 认 值 含义 
spark.broadcast.compress true 在 发 送 广播 信息 前 是 否 压 缩 它们 
orgapache.spark.serial | 序列 化 器 ， 目 前 只 支持 Java 序列 化 器 


izer.JavaSerializer 
对 RDD 分 区 、 广 播 变量 和 shuffle 输出 过 程 所 使 用 的 压缩 库 ， 
Spark 默认 提供 3 种 压缩 库 : 1z4、lzf 和 snappy， 用 户 可 以 使 用 类 
spark.io.compression.codec snappy 全 名 来 指定 压缩 库 ， 如 org.apache.spark.io.LZ4Compression Codec、 
org.apache.spark.io.LZFCompressionCodec 和 org.apache. 
spark.io.SnappyCompressionCodec 


spark.closure.serializer 


i: 弦 中 使 用 的 块 。 使 j= 缩 ， 会 这 一 值 ， 以 型 
sparkiocompression lz4.blockSize 32kB i ee 人 合用 lz4 压缩 ， 会 降低 这 “ 值 ， 以 致 
spark.io.compression.snappy.blo 32kB snappy 压缩 中 使 用 的 块 大 小 。 使 用 snappy 压缩 ， 会 降低 这 一 
ckSize 值 ， 以 致 降低 shuffle 内 存 使 用 量 
spark.kryo.classesToRegister none 如 果 使 用 Kryo 序列 化 器 ， 则 使 用 Kyro 类 的 名 字 来 注册 该 类 


true《〈 在 使 用 Spark 当 使 用 Kyro 序列 化 数据 时 选择 是 否 使 用 引用 ， 当 对 象 图 中 有 循 


spark.kryo.referenceTracking SQL Thrift Server 中 不 时 很 有 用 ， 同 时 在 这 些 对 象 有 多 个 拷贝 的 时 候 能 提高 效率 。 如 果 
为 false) 户 知道 实际 使 用 中 不 是 这 个 情况 则 可 以 选择 关闭 该 属性 功能 
是 否 用 Kyro 注册 ， 如 果 为 tue， 则 当 没 有 注册 的 类 被 序列 化 时 
spark.kryo.registrationRequired false 会 报错 。 如 果 为 false， 则 Kyro 会 写 对 象 未 注册 的 类 名 ， 这 样 做 会 
造成 比较 大 的 开销 
spark.kryo.registrator none 和 如果 使 Kyro 订 多 化 见 设置 该 司 性 来 注 Kyro 类 。 这 个 属性 
很 有 用 ， 因 为 用 户 可 以 用 习惯 的 用 法 注册 自己 的 类 
Kyro 序列 化 缓存 可 分 配 的 最 大 值 。 这 必须 比 用 户 想 序列 化 的 任 
spark.kryoserializer.buffer.max 64MB 何 对 象 都 大 。 当 用 户 得 到 “超过 缓存 限制 ”的 错误 ， 则 可 以 增加 这 一 
属性 值 
a Kyro 序列 化 缓存 的 初始 大 小 。 注 意 每 个 worker 中 单 core 有 一 个 
Eee 人 a 在 使 用 中 ，buffer 会 增加 spark.kryoserializer.buffer.max.mb 值 
Sir Fad ondeas i 是 否 压缩 序 负 化 的 RDD 分 区 ， 如 果 选 择 压 缩 ， 则 会 以 消耗 CPU 
为 代价 来 节省 一 部 分 空间 
| 选择 网 络 传输 和 缓存 过 程 中 数据 的 序列 化 形式 ， 默认 的 Java 序 
spark.serializer ierJavaSerializer 列 化 器 能 用 于 任何 Java 对 象 ， 但 速度 比较 慢 。 官 方 推荐 使 用 Kyro 
序列 化 器 
当 使 用 org.apache.spark.serializer.JavaSerializer 序列 化 器 时 ， 序 克 
化 器 会 缓存 对 象 来 防止 写 见 余数 据 ， 然 而 这 样 会 停止 这 些 对 和 象 的 垃 
spark.serializer.objectStreamReset 圾 回收 ， 通 过 调用 reset 可 以 刷新 序列 化 器 中 的 信息 ， 这 样 能 让 之 
100 前 的 数据 被 收集 。 将 该 属性 设置 为 -1 表示 关闭 该 功能 ， 默 认 是 每 


100 个 对 象 reset 一 次 


从 表 中 可 以 看 出 ， 压 缩 与 序列 化 方面 的 可 配置 选择 很 多 ， 比 如 选择 不 同 的 压缩 库 和 配置 
压缩 缓存 的 大 小 等 。 其 中 使 用 Kyro 序列 化 器 的 效果 要 更 好 ， 但 是 出 于 Java 序列 化 器 的 普 适 
性 ， 系 统 默认 使 用 Java 序列 化 器 。 


5.2.5 ”数据 序列 化 


序列 化 是 将 对 象 转换 为 字 节 流 ， 然 后 进行 流 式 数据 传输 ， 主 要 用 于 进程 间 通 信和 将 数据 
持久 化 到 磁盘 。 序 列 化 在 分 布 式 系统 中 占有 重要 作用 ，Spark 提供 Java 和 Kyro 序列 化 库 。 
Java 序列 化 库 灵活 性 好 但 是 比较 慢 且 占 空间 ， 因 此 官方 推荐 使 用 Kyro 序列 化 库 进 行 序列 
化 ，Kyro 库 序 列 化 的 对 象 占用 内 存 更 小 且 速 度 更 快 〈 通 常 10 倍 以 上 )， 但 是 支持 的 序列 化 


I 
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类 型 有 限 且 需要 手动 注册 类 才能 使 用 。 


Se 


5.3 内存 调 优 


本 节 主 要 讨论 与 内 存 相关 的 调 优 ， 包 括 调整 数据 结构 ， 对 RDD 序列 化 存储 和 GC 的 调 
优 方法 ， 通 过 调 优 来 最 大 效率 地 利用 内 存 性 能 ， 减 少 内 存 溢 出 问题 。 


5.3.1 ”调整 数据 结构 


减少 内 存 
始 数据 的 结构 


消耗 的 第 一 步 就 是 尽量 使 用 原始 数据 结构 ， 减 少 使 用 链表 结构 和 一 些 封装 了 原 
， 因 为 这 样 能 减少 包装 信息 的 开销 ， 具 体 的 调整 方式 如 下 。 


1) 尽量 设计 选用 数组 类 型 和 基本 数据 类 型 ， 减 少 使 用 Java 集合 和 Scala 集合 如 


HashMap ) 。 


E 荐 使 用 能 履 盖 大 部 分 Java 标准 库 集 合 和 数据 类 型 的 fastutil 库 ， 访 问 官网 


http://fastutil.di. 


unimi.it/ 能 获取 更 详细 的 信息 。 


2) 减少 使 用 数据 量 小 、 对 象 多 且 内 含 指针 集合 的 嵌 套 结构 ， 使 用 的 数据 结构 越 简 单 、 


代码 量 越 精 简 越 好 ， 因 为 简单 数据 结构 没有 包装 开销 。 


3) 在 使 用 key-value 对 时 ， 考 虑 使 用 数字 ID 和 枚 举 对 象 来 代替 String 字符 串 作 为 key。 
4) 如 果 内 存 小 于 32GB， 则 推荐 设置 JVM 参数 -XX : +UseCompressedOops， 进 而 让 普 
通 对 象 指针 〈Ordinary Object Pointer) 由 8 字 节 降 为 4 字 节 。 


5.3.2 ”序列 化 RDD 存储 


经 过 上 面 
减少 内 存 占用 


的 优化 操作 后 ， 如 果 对 象 存储 空间 仍然 很 大 ， 则 可 以 使 用 一 个 更 简单 的 方法 来 
， 那 就 是 以 序列 化 形式 存在 内 存 中 ， 在 RDD API 中 StorageLevels 选择 使 


MEMORY_ONLY_SER， 此 时 RDD 每 个 分 区 数据 会 以 二 进 制 数组 形式 存储 。 这 种 模式 唯一 
的 缺点 就 是 当 需 要 访问 序列 化 后 的 数据 时 会 比较 慢 ， 因 为 还 有 进行 反 序列 化 操作 。 如 果 希 望 


将 RDD 序列 化 存储 在 内 存 中 ， 则 建议 使 用 Kyro 库 ， 因 为 被 它 序列 化 后 的 数据 占用 空间 比 使 
| Java 默认 序列 化 库 更 小 ， 甚 至 比 原始 Java 对 象 还 小 ， 性 能 更 好 。 所 以 当面 对 GC 问题 


ps 


时 ， 建 议 先 使 
5.3.3 GC 


序列 化 缓存 技术 。 


当 运 行内 
用 的 空间 给 


存 中 有 大 量 RDD 数据 时 ，JVM 就 会 进行 GC 操作 。 当 JVM 需要 腾 出 旧 数 据 
新 数据 使 用 时 ， 会 遍历 所 有 Java 对 象 ， 然 后 找 出 不 会 被 再 使 用 的 对 象 并 回收 


[所 占用 的 内 
的 ， 故 使 用 数 


性 琴 


站 


存 。 在 这 里 值得 注意 的 是 JVM 的 垃圾 回收 消耗 跟 Java 对 象 的 量 是 成 比例 
据 结构 时 应 该 尽量 使 用 开销 少 的 原始 数据 结构 和 数组 〈 例 如 使 用 Int 数组 代 


蔡 LinkedList)。 更 好 的 方式 是 将 数据 以 序列 化 形式 缓存 ， 让 每 一 个 RDD 分 区 只 有 一 个 字 


节 数 组 。 


此 外 当 Spark 的 任务 工作 占用 内 存 与 缓存 在 内 存 中 的 RDD 有 空间 冲突 时 ， 也 会 引发 垃 
圾 回收 问题 ， 下 面 将 讨论 如 何 分 配 缓存 在 内 存 中 的 RDD 来 缓解 GC 压力 。 
1. 评估 GC 的 影响 


一 般 来 说 
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， 对 GC 进行 调 优 的 前 提 是 先 了 解 GC 的 状态 ， 比 如 GC 的 频率 和 时 间 开 销 。 可 以 


在 spark-envsh 中 的 SPAEK JAVA_OPTS 中 添加 “ -verbose:gc -XX:+PrintGCDetails - 
XX:+PrintGCTimeStamps”( 可 以 参考 Spark ConfigurationS2 来 了 解 如 何 让 Spark 任 务 打印 更 多 
言明 )。 下 一 次 执行 任务 后 就 能 看 到 worker 上 面 的 日 志 中 打印 出 GC 相 关 信息 ， 这 些 信息 在 集 
群 中 的 worker 节 点 上 而 不 是 驱动 程序 控制 台 上 。 

2. 缓存 大 小 调 优 

对 于 GC 过 程 ， 一 项 重要 的 配置 参数 是 分 配给 RDD 缓存 数据 的 内 存 比 例 。 系 统 默认 分 
配 60% 的 内 存 (spark.executor.memory) 用 于 缓存 RDD。 这 意味 着 剩 下 的 40% 的 用 于 task 执 
行 过 程 中 新 创建 的 对 象 。 

当 使 用 Spark 过 程 中 ， 如 果 任 务 过 慢 且 发 现 JVM 的 垃圾 收集 很 频繁 甚至 出 现 内 存 溢出 
问题 ， 这 时 我 们 可 以 尝试 将 这 一 参数 降 到 3$0%， 也 就 是 通过 配置 spark-env.sh 文件 中 的 变量 
spark.storage.memoryFraction 为 0.35， 同 时 还 结合 对 象 的 序列 化 缓存 技术 ， 用 更 小 的 缓存 来 组 
解 绝 大 多 数 垃圾 收集 问题 。 下 面 还 将 继续 介绍 一 些 更 高 级 的 调 优 技术 。 
3. 高 级 GC 调 优 策 略 
首先 了 解 JVM 扒 中 内 存 结构 和 分 布 情况 ， 如 图 5-6 所 示 。 


垃圾 收集 过 程 


ee 
From To 


Tenured Space 


老年 代 


) Permanent 


图 5-6 堆 内 存 的 结构 


JVM 分 为 堆 区 和 非 堆 区 ， 堆 区 是 分 代 的 ， 主 要 有 人 年轻 代 〈Young Generation)、 老 年 代 
(Old Generation )， 非 堆 区 有 持久 代 (Permanent Generation )、 代 人 码 缓存 区 、JVM 栈 和 本 地 方 
法 栈 。 下 面 将 对 这 几 个 代 进 行 详细 解释 。 

(1) 年 轻 代 

从 图 中 看 出 ， 年 轻 代 分 为 3 个 区 ， 分 别 是 一 个 Eden 区 和 两 个 Survivor 区 。Eden 区 主要 
放 新 生 的 对 象 ， 两 个 Survivor 区 大 小 一 样 ， 它 们 用 来 存放 每 次 垃圾 回收 后 留 下 的 对 象 。 当 
Eden 区 满 了 的 时 候 ，Eden 区 和 Survivorl 区 中 存活 的 对 象 被 复制 到 Survivor2 区 ， 然 后 两 个 
区 进行 对 换 《〈 这 样 Survivor2 区 又 是 空 的 ， 始 终 保 持 一 个 Survivor 区 为 空 )， 如 果 对 象 很 老 或 
者 Survivor2 区 满 了 ， 则 把 对 象 转移 到 老年 代 。 当 Eden 区 满 时 会 进行 minor GC， 当 Tenured 
区 满 了 则 进行 fol GC， 这 时 会 停止 所 有 在 堆 中 的 线程 并 执行 清除 动作 。 

(2) 老年 代 

老年 代 存 放 从 年 轻 代 中 经 过 垃圾 清除 还 存活 下 来 的 对 象 ， 通 常 老年 代 存 放 的 对 象 都 是 长 


和 


© Spark Configuration: http://spark.apache.org/docs/latest/configuration.html。 
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生命 周期 对 象 。 
(3) 持久 代 
持久 代 在 非 堆 空间 中 ， 主 要 存放 Java 类 信息 ， 包 括 解析 到 的 方法 、 属 性 、 字 段 等 ， 持 
久 代 基 本 不 参与 垃圾 回收 。 
4. GC 调 优 过 程 
Spark 内 的 GC 调 优 是 为 了 让 长 生命 周期 的 RDD 储存 在 老年 代 ， 而 年 轻 代用 来 高 效 储存 
短 生命 周期 的 对 象 。 这 样 做 能 避免 full GC 收集 任务 中 的 临时 对 象 。 下 面 介绍 一 些 有 用 的 操 


Ee 


1) 通过 观察 GC 统计 信息 判断 是 否 有 大 量 垃圾 收集 动作 ， 如 果 任务 结 束 前 foll GC 被 使 
多 次 ， 则 说 明 执 行 任务 所 需要 的 内 存 不 足 。 

2) 从 打印 的 GC 统计 信息 中 ， 如 果 老 年 代 满 了 ， 此 时 应 该 减少 缓存 数据 的 内 存 使 用 
量 ， 因 为 堆 中 的 内 存 占用 主要 是 task 执行 生成 的 新 对 象 占用 ， 这 样 只 需要 降低 参数 
spark.storage.memoryFraction 值 ， 因 为 spark.storage.memoryFraction 主要 控制 堆 空 间 ， 默 认 值 
为 0.67， 意 思 是 2/3 的 空间 用 来 存放 Spark 中 RDD 数据 。 当 任务 计算 过 程 因为 内 存 不 够 而 比 
较 慢 ， 则 需 调 低 这 一 比例 ， 这 样 可 以 空 出 更 多 内 存 给 计算 任务 ， 进 而 缓解 GC 问题 。 

3) 如 果 有 很 多 minor GC 问题 出 现 而 不 是 major GC 问题 ， 这 说 明 Eden 空间 不 足 ， 则 需 
要 给 Eden 空间 分 配 更 多 内 存 。 在 这 里 给 Eden 分 配 空间 的 大 小 比 一 个 task 所 需要 的 内 存 大 小 
多 一 点 即 可 《如 果 Eden 需要 内 存 大 小 为 E， 则 官方 推荐 年 轻 代 大 小 “Xmn=4/3xE”) 

4) 如 果 task 从 HDFS 读 取 数据 ，task 需要 的 内 存 可 以 根据 读 的 HDFS 数据 块 大 小 来 估 
计 。 比 如 解压 缩 的 数据 块 大 小 是 未 解压 的 2 到 3 倍 ， 当 我 们 希望 有 3 到 4 个 task 工作 
HDFS 数据 块 大 小 是 64MB， 那 么 可 以 分 配 Eden 的 大 小 为 “4x3x64=768MB ”。 


5.4 其 他 调 优 


本 小 节 主 要 介绍 除了 上 面 讲 过 的 主流 调 优 方法 之 外 的 一 些小 细节 ， 例 如 并 行 度 、Reduce 
任务 和 广播 变量 调 优 。 
5.4.1 ”并行 度 

如 果 没 有 设置 合适 的 并 行 度 ， 那 就 不 能 完全 利用 集群 的 性 能 。 例 如 Spark 会 根据 每 个 文 
件 的 大 小 默认 配置 Map task 数据 ， 也 就 是 父 RDD 的 最 大 分 区 数量 (可 以 通过 SparkContext. 
textFile 或 spark.default.parallelism 进行 配置 )。 通 常 来 说 ， 集 群 中 一 个 CPU 对 应 2 到 3 
个 task。 


S.4.2 Reduce 任务 


有 些 时 候 会 碰 到 内 存 溢出 的 错误 ， 这 并 不 是 因为 RDD 不 能 加 载 到 内 存 ， 而 是 因为 task 
中 的 执行 任务 的 数据 集 过 大 ， 例 如 reduce 任务 中 的 groupByKey 操作 。Spark 内 有 一 个 叫 
shuffle 的 操作 (groupByKey、reduceByKey、sortByKey、join 等 )， 会 在 每 一 个 task 中 建立 
一 个 哈 希 表 来 进行 任务 分 组 ， 这 个 表 可 能 会 非常 大 。 在 这 种 情况 下 最 简单 的 方法 就 是 增加 并 
行 度 ， 也 就 是 增加 task， 减 少 每 个 task 所 处 理 的 数据 负载 。Spark 能 高 效 支 持 短 达 200 毫秒 
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的 任务 ， 这 主要 是 因为 Spark 在 很 多 task 中 重用 一 个 executor 的 JVM， 这 样 能 减少 task 启动 
的 负载 ， 故 可 以 安全 地 将 task 的 个 数 〈 并 行 度 ) 设置 的 比 CPU 核心 数 更 多 。 


5.4.3 广播 变量 


在 Spark 中 使 用 Broadcast 广播 功能 ， 能 大 大 减少 序列 化 task 的 大 小 和 在 集群 中 启动 job 
的 开销 。Broadcast 主要 是 供 集 群 中 各 个 task 共享 使 用 的 变量 ， 它 只 会 在 每 台 机 器 中 保存 一 


份 ， 不 会 保存 在 每 个 task 中 。 如 果 程 序 使 用 驱动 程序 中 比较 大 的 对 象 ， 如 静态 查找 表 ， 则 需 
要 考虑 把 这 对 象 表 转 化 成 广播 变量 ，Spark 会 在 master 上 打印 每 一 个 task 序列 化 后 的 大 小 ， 


所 以 能 通过 打印 信息 检查 任务 是 不 是 太 大 。 一 般 来 讲 ， 大 于 20KB 的 task 都 是 值得 优化 的 。 


5.4.4 ”数据 本 地 化 


数据 本 地 化 将 对 Spark job 的 性 能 有 很 显著 的 影响 。 如 果 计 算 需 要 的 数据 和 程序 代码 都 


在 一 起 (同一 台 机 器 )， 


项 必须 移动 到 为 一 项 上 。 
因为 代码 比 数据 占用 空间 小 。Spark 基于 数据 本 地 化 建立 一 个 调度 策略 。 


~ 


好 


那么 计算 起 来 就 会 很 快 。 反 之 ， 当 数据 和 程序 代码 分 离 了 ， 其 中 一 


通常 而 言 ， 移 动 序列 化 之 后 的 程序 代码 肯定 比 移动 笨重 的 数据 要 


所 谓 数据 本 地 化 ， 就 是 处 理 数 据 与 代码 在 不 同 距离 的 情况 下 的 应 对 策略 。 这 里 介绍 几 个 


基于 数据 当前 位 置 的 本 地 化 级 别 ， 距 离 是 由 近 到 远 的 顺序 。 
1) PROCESS_LOCAL : 数据 与 程序 代码 在 同一 个 JVM 中 ， 这 是 最 好 的 情况 。 
2) NODE _ LOCAL; 


数据 在 同一 台 节 点 上 。 这 样 的 话 数据 需要 在 进程 间 传 输 ， 速 度 比 


PROCESS_LOCAL 慢 一 点 。 
3) NO_PREF: 数据 从 不 同 的 地 方 获得 ， 而 且 还 没有 本 地 偏好 〈Locality Preference )。 
4) RACK_LOCAL: 数据 在 同一 个 服务 器 机 架 上 ， 但 是 数据 位 于 不 同 的 服务 器 ， 所 以 需 


要 通过 网 络 交换 机 传输 数据 。 
5) ANY: 数据 不 在 同一 个 机 架 ， 而 可 能 处 于 任何 位 置 。 


如 果 可 以 ，Spark 更 倾向 于 把 task 放 在 最 优 的 本 地 化 级 别 ， 就 是 数据 与 程序 代码 越 近 


越 好 。 
5.4.5 ”网 络 通信 调 优 


Spark 使 用 Akka 进行 网 路 通信 ，Akka 是 一 个 用 Scala 编写 的 库 ， 用 于 构建 基于 JVM 的 


高 并 发 、 分 布 式 、 可 容错 和 事件 驱动 的 应 用 ， 能 让 构建 高 并 发 的 分 布 式 应 用 更 容易 ， 其 具有 
高 性 能 、 弹 性 无 中 心 和 可 扩展 性 。Akka 可 以 应 用 在 银行 、 零 售 、 游 戏 、 交 通 和 数据 分 析 等 
领域 中 需要 高 吞吐 和 低 延 迟 的 系统 ， 在 Spark 中 任务 的 分 发 通过 AKKA 库 中 的 Actor 来 传 
递 。 参 数 Spark.akka.frameSize 是 控制 Spark 中 通信 消息 的 最 大 容量 (如 task 分 发 的 消息 )， 


默认 为 10MB 。 当 处 理 大 数据 时 ， 可 能 会 出 现 task 输出 大 于 10MB， 这 时 需要 根据 实际 情况 
设置 一 个 更 大 的 值 ， 如 果 是 这 个 值 不 够 大 而 产生 的 错误 ， 可 以 从 worker 的 日 志 中 进行 检 
查 。 通 常 worker 上 的 任务 失败 后 ，master 的 运行 日 志 上 出 现 提 示 “Lost TID: ” 可 通过 查看 


失败 的 worker 的 日 志文 件 “$SPARK_HOME/worker/” 下 面 的 log 文件 中 记录 的 任务 的 
“Serialized size ofresult” 是 否 超过 10MB 来 确定 是 不 是 task 任务 传递 的 信息 量 超过 限制 。 
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5.4.6” 侯 得 空间 优化 

很 多 时 候 我 们 会 忽略 磁盘 方面 的 优化 ， 从 而 出 现 一 些 异常 报错 。 配 置 参数 spark.local.dir 
是 指定 Spark 中 间 运 行 结 果 存 放 的 磁盘 目录 (目录 默认 在 /tmp)， 如 map 的 输出 文件 和 保存 
在 磁盘 的 RDD 等 都 保存 在 这 里 ， 当 程序 运行 数据 量 很 大 的 时 候 就 可 能 出 现 大 量 中间 数 据 ， 
如 果 /tmp 目录 空间 不 够 则 会 出 现 Exception: “No space left on device ”。 

此 外 还 有 一 种 情况 是 collect 操作 输出 大 量 结果 时 系统 速度 很 慢 甚 至 内 存 溢出 。 因 为 
collect 操作 的 过 程 是 把 所 有 结果 以 数组 形式 放 在 内 存 中 ， 所 以 当 收 集 的 最 终结 果 过 大 的 时 候 
可 以 把 数据 存储 在 HDFS 或 其 他 持久 化 存储 上 。 


5.4.7 ”任务 执行 速度 “倾斜 ” 


当 任 务 执行 速度 在 不 同 节点 上 差距 很 大 时 ， 就 出 现 “ 倾 斜 ”问题 。 倾 斜 问 题 主 要 有 数据 
倾斜 和 worker 节点 上 的 任务 倾斜 。 如 果 是 数据 倾斜 ,一般 是 partition key 取 的 不 好 ， 可 以 考 
处 其 他 的 并 行 处 理 方式 ， 并 在 中 间 加 上 aggregation 操作 ; 如 果 是 worker 任务 倾斜 ， 比 如 某 
些 节 点 executor 执行 缓慢 ， 可 以 通过 设置 “spark.speculation=true”( 即 推测 执行 )， 在 其 他 节 
点 开启 同样 的 计算 过 程 ， 取 计算 快 的 节点 的 结果 。 


] 5.5 ”本 章 小 结 


对 于 Spark 调 优 ， 最 重要 的 就 是 数据 序列 化 和 内 存 调 优 。 对 于 大 多 数 程序 选择 Kyro 序 
列 化 器 并 持久 化 序列 后 的 数据 能 解决 常见 的 性 能 问题 。 有 具体 到 各 方面 ， 性 能 优化 工作 主要 从 
内 存 、CPU、 和 硬盘 、 网 络 IO 和 序列 化 机 制 这 儿 个 方面 为 主线 进行 ， 首 先 让 程序 能 运行 ， 然 
后 从 静态 代码 和 程序 运行 状态 分 析 中 找 出 性 能 瓶颈 ， 进 而 优化 数据 结构 、 算 法 和 配置 参数 。 
考虑 到 实际 运行 环境 复杂 ， 会 面临 软 便 件 问题 ， 列 出 优化 方案 逐步 探索 优化 ， 最 后 便 能 得 到 
满意 的 优化 结果 。 
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第 三 篇 机 制 篇 


学 会 在 Spark 平台 上 进行 开发 后 ， 会 在 开发 中 经 常 出 现 各 种 问题 ， 为 了 能 
准确 定位 并 解决 问题 ， 就 需要 学 习 本 篇 的 Spark 内 部 机 制 。 机 制 篇 主要 介绍 
RDD 内 部 原理 、 平 台 调 度 机 制 和 Shuffle 机 制 。RDD 内 部 原理 是 向 读者 解析 
Spark 平台 最 核心 的 数据 结构 分 布 式 抽象 数据 集 ， 使 读者 了 解 RDD 内 部 框 
架 ，Spark 计算 的 容错 特性 与 RDD 结构 之 间 的 联系 。 平台 调度 机 制 是 为 读者 
讲述 Spark 平台 系统 各 组 件 之 间 任 务 的 划分 、 调 度 和 通信 方式 ， 以 及 这 个 方 
式 是 如 何 提升 系统 性 能 的 。 本 篇 最 后 讲述 影响 Spark 性 能 最 关键 的 步骤 一 一 
Shuffle 过 程 ， 深 入 理解 Shuffle 过 程 对 系统 调 优 的 重要 作用 。 在 前 三 篇 对 
Spark 概念 、 开 发 和 机 制 讲解 后 ， 最 后 一 篇 会 介绍 Spark 的 典型 应 用 ， 使 读者 
体验 Spark 平台 在 不 同 领域 的 应 用 。 


A 
6 音 


厦 日 早 


RDD 内 部 结构 


> 也 


在 Spark 核心 开发 一 章 中 ， 读 者 已 经 接触 了 Spark 为 开发 者 所 提供 的 诸多 操作 接 


尝试 了 使 用 这 些 接口 来 做 应 用 开发 ， 但 这 对 于 理解 Spark 的 内 部 工作 机 制 来 说 ， 还 远 远 不 
够 。RDD 作为 Spark 中 最 为 重要 的 一 类 数据 抽象 ， 同 时 也 是 Spark 程序 开发 者 接触 最 多 的 数 


据 结构 ， 


自然 也 就 成 为 理解 Spark 工作 原理 的 入 


乙 一 。 


RDD 的 全 称 为 Resilient Distributed Datasets， 即 弹性 分 布 式 数据 集 。 数 据 集 顾名思义 ， 
说 明 RDD 是 数据 集合 的 抽象 ， 从 外 部 来 看 ，RDD 的 确 可 被 看 成 带 扩 展 特 性 〈 如 容错 性 等 ) 
的 数据 集合 ， 分 布 式 则 能 够 理解 成 数据 的 计算 并 非 只 局 限于 单个 节点 ， 而 是 通过 多 个 节点 之 


间 的 协同 计算 得 到 ; RDD 内 部 数据 是 只 读 的 ， 但 RDD 却 具有 弹性 这 一 特性 ， 


实际 上 ，RDD 


可 以 在 不 改变 内 部 存储 数据 记录 的 前 提 下 ， 去 调整 并 行 计算 计算 单元 的 划分 结构 ， 弹 性 这 


特性 ， 


卓然 也 是 为 并 行 计 算 服务 的 。 因 此 ， 在 i 


解 RDD 之 前 ， 我 们 需要 记 住 一 个 重要 概 


念 : RDD 是 并 行 计算 的 数据 集 。 之 后 ， 还 需要 考虑 一 些 设计 上 需要 思考 的 问题 。 
首先 ， 前 文 提 及 到 了 并 行 计算 的 计算 单元 ， 那 么 在 RDD 里 面 ， 这 些 单元 应 该 如 何 表示 


更 为 合适 ?既然 要 进行 并 行 计算 ， 
资源 能 够 被 合理 利用 ， 那 么 RDD 内 部 数据 上 
计算 ? 


自然 希望 计 各 


再 者 ， 分 布 式 数据 集 往往 需要 具备 一 个 习 


单元 能 够 尽 可 能 地 均匀 分 配 ， 从 而 保证 集群 


的 划分 依据 又 是 什么 ? 这 些 计算 单元 又 该 如 何 被 


要 特性 ， 即 容错 性 ， 分 布 式 条 件 下 数据 的 丢失 


可 能 会 很 常见 ， 这 时 候 就 需要 Spark 能 够 通过 某 种 机 制 来 恢复 丢失 的 数据 ， 从 而 保证 数据 的 
的 可 靠 性 和 完整 性 。 传 统 方法 的 容错 机 制 有 两 种 ， 一 是 创建 数据 检查 点 ， 即 将 某 个 节点 的 数 


据 保 存在 存储 介质 当中 ; 
者 ， 在 网 络 中 传输 与 复制 数据 集 的 带宽 


二 是 记录 更 新 ， 即 记录 下 内 部 数据 所 遭遇 过 的 所 有 的 更 新 。 对 于 前 
F 销 显然 是 非常 庞大 的 ， 对 于 后 者 ， 如 果 要 记录 每 一 


个 数据 记录 的 所 有 更 新 ， 成 本 自然 也 是 不 小 。 通 过 前 面 对 RDD 的 学 习 ， 了 解 到 Spark 最 终 
采用 的 是 第 二 种 办 法 ， 而 为 了 避免 巨大 的 开销 ，RDD 只 文 持 粗 粒 度 的 转换 操作 ， 一 个 操作 


会 应 
据 又 是 通过 何 种 方式 恢复 的 呢 ? 
章 会 围绕 着 这 些 问 题 ， 


从 而 理 


6.1 RDD 接口 


到 多 个 数据 而 非 单个 记录 。 那 么 ， 在 RDD 内 部 ， 如 何 去 记 录 数 据 的 更 新 ， 丢 失 的 数 


深入 到 RDD 的 源码 内 部 ， 通 过 研究 RDD 各 个 接口 的 实现 ， 
解 Apache Spark 的 设计 者 们 是 如 何 设计 RDD 这 一 数据 抽象 的 。 


在 Apache Spark 源 码 级 别 ，RDD 是 一 个 抽象 类 ， 这 里 所 使 用 的 RDD 实 例 ， 都 是 RDD 的 子 
类 ， 例 如 执行 map 转 换 操作 之 后 可 以 得 到 一 个 MapPartitionsRDD 实 例 ， 执 行 groupByKey 转 换 操 


作 之 后 可 以 得 到 一 个 ShuffledRDD 实 例 。 不 同 的 RDD 子 类 会 根据 实际 需求 实现 各 目的 功能 ， 但 


无 论 如 何 ， 一 个 RDD 内 部 都 会 包含 如 下 几 类 接口 的 全 部 或 者 一 部 分 。 
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分 


Xl 


(Partition) 相关 接口 。 
依赖 〈Dependency) 相关 和 
计算 〈Computing) 相关 接口 。 

分 区 器 〈Partitioner) 相关 接口 〈 可 选 )。 

首选 位 置 (Prefered Location ) 相关 接口 〈 可 选 )。 


0.2 分 区 


个 分 片 称 为 分 区 ， 分 
单独 的 任务 中 进行 ， 因 此 人 


RDD) 分 区 的 个 数 决定 的 。 


分 区 在 源码 级 别 的 实现 为 Partition 类 ， 划 


trait Partition extends Serializable { 


def index: Int 
override def hashCode(): Int = index 


} 


接口 


o 


持久 化 (Persistence) 与 检查 点 《Checkpoint) 相关 接口 。 


首先 回答 第 一 个 问题 : RDD 内 部 ， 如 何 表 示 并 行 计算 的 
区 。RDD 内 部 的 数据 集合 在 逻辑 上 “在 物理 


区 的 个 数 会 决定 并 行 计算 的 粒度 ， 而 每 一 个 分 
E 务 的 个 数 ， 也 是 | 


代码 如 下 。 


个 计划 


单元 ， 


分 


答案 是 使 


上 则 不 一 定 ) 被 划分 成 多 个 分 片 ， 这 样 的 每 一 
区 数值 的 计算 都 是 在 


个 


RDD (准确 来 说 是 一 个 作业 的 最 后 一 个 


可 以 看 到 ，Partition 类 其 实 是 分 区 的 一 个 标识 ， 其 内 包含 一 个 index 成 员 ， 表 示 该 分 区 


在 RDD 内 的 编号 ， 


人 


号 ， 利 用 底 
区 对 应 的 数据 。 


6.2.1 


层 数 据 存储 


通过 “RDD 编号 + 分 区 编号 ”可 以 唯 


分 区 接口 


RDD : 


发 者 调用 ， 用 本 
行 实现 getPartitions ] 


的 子 类 需要 自 


F 获 取 RDD 的 所 有 


层 提 供 的 接 


分 


地 确 


定 该 分 区 对 应 的 块 编 


， 就 能 从 存储 介质 (如 HDFS、Memory) 中 提取 出 分 


区 。partitions 方法 会 调 


接口 ， 代 码 如 下 。 


@transient private var partitions_: Array[Partition] = null 


protected def getPartitions: Array[Partition] 
final def partitions: Array[Partition] = { 
checkpointRDD.map(_.partitions).getOrElse { 


} 
} 


if (partitions_ == null) { 


partitions_ = getPartitions 


} 


partitions_ 


| 象 类 中 定义 了 _partitions 数组 成 员 和 partitions 方法 ，partitions 方法 提供 给 外 部 开 
内 部 getPartitions 接口 ，RDD 


以 map 转换 操作 生成 MapPartitionsRDD 类 中 的 getPartitions 方法 为 例 ， 其 实现 代码 如 下 。 


Override def getPartitions: Array[Partition] = firstParent[T].partitions 
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可 以 看 到 ，MapPartitionsRDD 的 分 区 实际 上 与 父 RDD 的 分 区 完全 一 致 ， 这 也 符合 对 
map 转换 操作 的 认 知 。 


6.2.2 ”分 区 个 数 


RDD 分 区 的 一 个 分 配 原 则 : 尽 可 能 地 使 得 分 区 的 个 数 等 于 集群 核心 数目 。RDD 可 以 通 
过 创建 操作 或 者 转换 操作 得 到 。 转 换 操 作 中 ， 分 区 的 个 数 会 根据 转换 操作 中 对 应 的 多 个 
RDD 之 间 的 依赖 关系 确定 ， 罕 依赖 由 子 RDD 由 父 RDD 分 区 的 个 数 决定 ，Shuffle 依赖 由 子 
RDD 分 区 器 决定 。 

创建 操作 中 ， 程 序 开发 者 可 以 手动 指定 分 区 的 个 数 ， 例 如 sc.parallelize (Array(1, 2, 3, 4， 
5), 2) 表 示 创 建 得 到 的 RDD 分 区 个 数 为 2， 在 没有 指定 分 区 个 数 的 情况 下 ，Spark 会 根据 集群 
部 署 模式 ， 来 确定 一 个 分 区 个 数 默 认 值 。 

这 里 分 别 讨论 parallelize 和 textFile 两 种 通过 外 部 数据 创建 生成 RDD 的 方法 。 

对 于 parallelize 方法 ， 默 认 情 况 下 ， 分 区 的 个 数 会 受 Spark 配置 参数 spark.default. 
parallelism 的 影响 ， 官 方 对 该 参数 的 解释 是 用 于 控制 Shuffle 过 程 中 默认 使 用 的 任务 数量 ， 这 
也 符合 对 分 区 个 数 与 任务 个 数 之 间 关 系 的 理解 ， 代 码 如 下 。 


def parallelize[T: ClassTag]( 
seq: Seg[T], 
numSlices: Int = defaultParallelism): RDDI[T] = withScope { 
asSertNotStoppedO 
new ParallelCollectionRDDIT](this, seq, numSlices, Map[Int, Seq[String]]0) 
} 


无 论 是 以 本 地 模式 、Standalone 模式 、YARN 模式 或 者 是 Mesos 模式 来 运行 Spark， 分 
区 的 默认 个 数 等 于 对 spark.default.parallelism 配置 项 的 指定 值 ， 若 该 值 未 设置 ， 则 会 根据 不 
同 集群 模式 的 特征 ， 来 确定 这 个 值 。 

对 于 本 地 模式 ， 默 认 分 区 个 数 等 于 本 地 机 器 的 CPU 核心 总 数 ( 或 者 是 用 户 通过 local[N] 
参数 指定 分 配给 Spark 的 核心 数目 )， 这 样 的 设置 显然 是 合理 的 ， 因 为 把 每 个 分 区 的 计算 任 
务 交 付 给 单个 核心 执行 ， 能 够 保证 最 大 的 计算 效率 。 其 实现 代码 如 下 。 

Override def defaultParallelism() = 
scheduler.conf.getInt("spark.default.parallelism", totalCores) 


若 使 用 Apache Mesos 作为 集群 的 资源 管理 系统 ， 默 认 分 区 个 数 等 于 8。 其 实现 代码 如 下 。 
//TODO: 查询 Mesos 资源 管理 器 的 core 数 
override def defaultParallelism(): Int = sc.conf.getInt("spark.default.parallelism", 8) 

其 他 集群 模式 (Standalone 或 者 YARN)， 默 认 分 区 个 数 等 于 集群 中 所 有 核心 数目 的 总 

和 ， 或 者 2， 取 两 者 中 的 较 大 值 。 其 实现 代码 如 下 。 


Override def defaultParallelism(): Int = { 
conf.getInt("spark.default.parallelism", math.max(totalCoreCount.get(), 2)) 


} 
对 于 textFile 方法 ， 默 认 分 区 个 数 等 于 min(defaultParallelism，2)， 而 defaultParallelism 实 
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际 上 就 是 parallelism 方法 的 默认 分 区 值 。 其 实现 代码 如 下 。 
def textFile( 
path: String, 


minPartitions: Int = defaultMinPartitions): RDD[String] = withScope { 


asSertNotStoppedO 


hadoopFile(path, classOf[TextInputFormat], classOf[LongWritable], classOf[ Text], 


minPartitions).map(pair => pair._2.toString) 


6.2.3 ”分 区 内 部 的 记录 个 数 


分 区 内 部 数据 的 一 个 分 配 原则 : 尽 可 能 地 使 不 同 分 区 内 的 记录 数量 保持 一 致 。 对 于 转换 


操作 得 到 的 RDD， 如 果 是 窄 依赖 ， 则 分 区 记录 数量 依赖 于 父 RDD 


P 相同 编号 分 区 是 如 何 进 


行 数据 分 配 的 ， 如 果 是 Shuffle 依赖 ， 则 分 区 记录 数量 依赖 于 选择 的 分 区 器 ， 哈 希 分 区 器 无 


法 保证 数据 被 平均 分 配 到 各 个 分 区 ， 而 范围 分 区 器 则 能 做 到 这 一 点 。 


ZI 


E 地 大 致 相同 〈 见 ParallelCollectionRDD 类 )， 人 代码 如 下 。 


def slice[T: ClassTag](seq: Seq[T], numSlices: Inb: Seq[Seq[T]] ={ 
if mumSlices < 1) { 


parallelize 方法 通过 把 输入 的 数组 做 一 次 平均 分 配 ， 尝 试 着 让 每 个 分 区 的 记录 个 数 尽 可 


throw new IllegalAreumentException("Positive number of slices required") 


} 
/ 序列 需要 被 同一 个 索引 位 
// 与 RDD.zip0 方 法 类 似 
def positions(length: Long, numSlices: Int): Iterator[(Int, Inb] = { 
(0 until numSlices).iterator.map(i => { 
val start = ((i * length) / numSlices).toInt 
val end = (((i + 1) * length) / numSlices).toInt 
(start, end) 
)) 
} 


seq match { 


集 切 分 ， 便 于 后 面 使 用 


caser: Range.Inclusive => { 
val sign =if (r.step < 0) { 
-1 
}else { 
1 
} 
slice(new Range( 
r.start, r.end + sign, .step).asInstanceOf[Segq[T]], numSlices) 
} 
caser: Range => { 
positions(r.length, numSlices).map({ 
case (start, end) => 
new Rangel(r.start + start * r.step, r.start + end * r.step, r.step) 
}).toSeq.asInstanceOff Seq[Seq[T]]] 
} 
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case nr: NumericRange[_] => { 
val slices = new ArrayBuffer[Seq[T]]Oumslices) 
VarT= DT 
for ((start end) <- positions(nr.length, numSlices)) { 
val sliceSize = end - start 
slices += .take(sliceSize).asInstanceOf[Seqg[T]] 
r=r.drop(sliceSize) 
} 
slices 
} 
case _=> { 
val array = seq.toArray // 避免 OA^2) 的 操作 复杂 度 
positions(array.length, numSlices).map({ 
case (start, end) => 
array.slice(start, end).toSeq 
)).toSeq 
} 
} 
} 


textFile 方法 分 区 内 数据 的 大 小 则 是 由 Hadoop API 接口 FileInputFormat.getSplits 方法 决 
定 〈 见 HadoopRDD 类 )， 得 到 的 每 一 个 分 片 即 为 RDD 的 一 个 分 区 ， 分 片 内 数据 的 大 小 会 受 
文件 大 小 、 文 件 是 否 可 分 割 、HDFS 中 块 大 小 等 因素 的 影响 ， 但 总 体 而 言 会 是 比较 均衡 的 分 
配 ， 其 实现 代码 如 下 。 


override def getPartitions: Array[Partition] = { 
val jobConf = getUobConfO 
// 在 SparkContext 初始 化 前 添加 凭证 
SparkHadoopUtil.get.addCredentials(jobConf) 
val inputFormat = getInputFormat(jobConf) 
if (inputFormat.isInstanceOf[Configurable]) { 

inputFormat.asImnstanceOf[Configurable].setConf(jobConf) 

} 


val inputSplits = inputFormat.getSplitsJobConf, minPartitions) 


val array = new Array[Partition](inputSplits.size) 
for (1 <- 0 until inputSplits.size) { 

atray() = new HadoopPartition(id, i, inputSplitsGD)) 
} 


array 


] 6.3 ”依赖 关系 


在 章 首 说 过 ，RDD 的 容错 机 人 制 是 通过 记录 更 新 来 实现 的 ， 且 记录 的 是 粗 粒 度 的 转换 操 
作 ， 在 外 部 ， 将 记录 的 信息 称 为 血统 (Lineage) 关系， 而 到 了 源码 级 别 ，Spark 记录 的 则 是 
RDD 之 间 的 依赖 ‘Dependency〉 关系 。 在 一 次 转换 操作 中 ， 创 建 得 到 的 新 RDD 称 为 子 
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RDD， 提 供 数据 的 RDD 称 为 父 RDD， 父 
之 间 的 关系 称 为 依赖 关系 ， 或 者 可 以 说 是 子 RDD 依赖 于 父 RDD。 


6.3.1 依赖 与 RDD 
依赖 在 Spark 源码 中 的 对 应 实现 是 Dependency 抽象 类 ， 实 现代 码 如 下 。 


@DeveloperApi 
abstract class Dependency[T] extends Serializable { 
def rdd: RDDIT] 


} 


父 RDD 可 能 会 存在 多 个 ， 这 里 把 子 


RDD 与 父 RDD 


每 个 Dependency 子 类 内 部 都 会 存储 一 个 RDD 对 象 ， 对 应 一 个 父 RDD， 如 果 一 次 转换 操 
就 会 对 应 产生 多 个 Dependency 对 象 ， 所 有 的 Dependency 对 象 存储 在 子 


作 有 多 个 父 RDD， 
RDD 内 部 ， 通 过 遍历 RDD 内 部 的 Dependency 对 象 ， 


RDD 被 设计 成 内 部 数据 不 可 改变 的 粗 粒 度 转换 ， 一 个 很 主要 的 原因 就 


不 同 版 本 的 数据 集 


的 依赖 关系 。 事 实 上 ， 即 使 没有 这 两 个 特性 ，RDD 也 能 


实现 数据 的 并 行 计算 ， 但 实现 难度 、 复 杂 度 在 某 种 程度 上 也 会 大 大 增加 。 


6.3.2 ”依赖 分 类 


Spark 将 依赖 进一步 分 为 两 类 ， 分 别 是 罕 依 赖 〈Narrow Dependency) 和 Shuffle 依赖 
(Shuffle Dependency， 也 被 称 为 Wide Dependency， 即 宽 依 赖 )。 
父 RDD 中 的 一 个 分 区 最 多 只 会 被 子 RDD 中 的 一 个 分 区 使 用 ， 换 句 话说 ， 
父 RDD 中 ， 一 个 分 区 内 的 数据 是 不 能 被 分 割 的 ， 必 须 整 个 交付 给 子 RDD 中 的 一 个 分 区 。 图 
见 的 罕 依 赖 及 其 对 应 的 转换 操作 。 


窄 依赖 中 ， 


6-1 展示 了 几 类 常 


占 


-二 


UnionRDD 


到 
相 
站 
总 


join0) 


依赖 及 其 对 应 的 转换 操作 


就 能 获取 该 RDD 所 有 依赖 的 父 RDD。 


是 为 了 方便 跟踪 
记录 依赖 关系 ， 
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Shuffle 依赖 中 ， 父 RDD 中 的 分 区 可 能 会 被 多 个 子 RDD 分 区 使 用 。 因 为 父 RDD 中 一 个 
分 区 内 的 数据 会 被 分 制 ， 发 送 给 子 RDD 的 所 有 分 区 ， 因 此 Shuffle 依赖 也 意味 着 父 RDD 与 
子 RDD 之 间 存 在 着 Shuffle 过 程 ，Shuffle 过 程 的 细节 本 书 会 在 第 8 章 中 讲述 。 图 6-2 展示 了 
几 类 常见 的 Shuffle 依赖 及 其 对 应 的 转换 操作 。 


| Join() 
图 6-2 ”常见 Shuffle 依赖 及 其 对 应 的 转换 操作 
依赖 关系 是 两 个 RDD 之 间 的 依赖 ， 因 此 若 一 PE 


次 转换 操作 中 父 RDD 有 多 个 ， 则 可 能 会 同时 包含 
罕 依 赖 和 Shuffle 依赖 ， 如 图 6-3 所 示 的 join 操 
作 ，RDD a 和 RDD c 采用 了 相同 的 分 区 器 ， 两 个 | RDDe 
RDD 之 间 是 罕 依 赖 ，Rdd b 的 分 区 器 与 RDD c 有 所 
不 同 ， 因 此 它们 之 间 是 Shuffle 依赖 。 


6.3.3 ” 窄 依 赖 


罕 依 赖 的 实现 在 NarrowDependency 抽象 类 
中 ， 实 现代 码 如 下 。 CG: 
re 图 6-3， 罕 依赖 和 Shufnle 依赖 共存 的 转换 操作 


abstract class NarrowDependency[T](_rdd: RDDI[T]) extends Dependency[T] { 
def getParents(partitionId: Int): Seq[Int] 
Override def rdd: RDD[T] = _rdd 
} 
NarrowDependency 要 求 子 类 实现 getParent 方法 ， 用 于 获取 一 个 分 区 数据 来 源 于 父 RDD 
中 的 哪些 分 区 (虽然 要 求 返 回 Seq[Int]， 实 际 上 却 只 有 一 个 元 素 )。 窜 依赖 可 进一步 分 类 成 一 
对 一 依赖 和 范围 依赖 ， 对 应 实现 分 别 是 OneToOneDependency 类 和 RangeDependency 类 。 
1. 一 对 一 依赖 
对 一 依赖 表示 子 RDD 分 区 的 编号 与 父 RDD 分 区 的 编号 完全 一 致 的 情况 ， 若 两 个 
RDD 之 间 存 在 着 一 对 一 依赖 ， 则 子 RDD 的 分 区 个 数 、 分 区 内 记录 的 个 数 都 将 继承 自 父 
RDD 。 
一 对 一 依赖 的 实现 代码 如 下 。 


join0 
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@DeveloperApi 


class OneToOneDependency[T](rdd: RDDI[T]) extends NarrowDependency[T](rdd) { 
Override def getParents(partitionId: Inb = List(partitionld) 


} 


2. 范围 依赖 
范围 依赖 是 依赖 关系 中 的 一 个 特例 ， 只 被 用 于 表示 UnionRDD 与 父 RDD 之 间 的 依赖 关 
系 。 相 比 一 对 一 依赖 ， 除 了 第 一 个 父 RDD， 其 他 父 RDD 和 子 RDD 的 分 区 编号 不 再 一 致 ， 


Spatk 统一 将 unionRDD 与 父 RDD 之 间 ( 包 含 第 一 个 RDD) 的 关系 都 叫做 范围 依赖 。 范 围 
依赖 的 实现 代码 如 下 。 


@DeveloperApi 
class RangeDependency[T](rdd: RDDI[T], inStart: Int, outStart: Int, length: Int) 
extends NarrowDependency[T](rdd) { 
Override def getParents(partitionId: Int) = { 
if (partitionlId >= outStart && partitionId < outStart + length) { 
List(partitionld - outStart + inStart) 
} else { 
Nil 
} 
} 
} 


RangeDepdencency 类 中 getParents 方法 的 一 个 示例 如 图 6-4 所 示 ， 对 于 unionRDD 中 编 
号 为 3 的 分 区 ， 可 以 计算 得 到 其 数据 来 源 于 父 RDD 中 编号 为 1 的 分 区 。 


加 a © 
| | 
全 全 


inStart=0 


length=3 


| C 〇 一 人 paritioniD-3 


图 6-4 范围 依赖 中 getParents 方法 示例 


6.3.4 ”Shuffle 依赖 


Shuffle 依赖 一 般 被 应 用 在 作业 调度 过 程 中 阶段 的 划分 ， 在 第 7 章 会 讲解 这 一 过 程 
Shuffle 依赖 的 对 应 实现 为 ShuffleDependency 类 ， 其 代码 如 下 。 
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@DeveloperApi 
class ShuffleDependency[K, V, C]( 
@transient _rdd: RDD[L_ <: Product2[K, V]], 
val partitioner: Partitioner, 
val serializer: Option[ Serializer] = None， 
val keyOrdering: Option[Ordering[K]] = None， 
val aggregator: Option[Aggregator[K, V, C]] = None, 
val mapSideCombine: Boolean = false) 
extends Dependency[Product2[K, V]] { 
override def rdd = _rdd.asInstanceOf[RDDI[Product2[K, V]]] 
val shuffleld: Int = _rdd.context.newShuffleId() 
val shuffleHandle: ShuffleHandle = _rdd.context.env.shuffleManager.registerShuffle( 
shuffleld, _rdd.partitions. size, this) 
_rdd.sparkContext.cleaner.foreach(_.registerShuffleForCleanup(this)) 


} 


ShuffleDependency 类 中 几 个 成 员 的 作用 如 下 。 

1) rdd: 用 于 表示 Shuffle 依赖 中 ， 子 RDD 所 依赖 的 父 RDD。 

2) shuffleId: Shuffle 编号 ， 用 于 在 Spark 应 用 程序 中 唯一 标识 一 个 Shuffle 依赖 。 

3) shuffleHandle: Shuffle 句柄 ， 在 Shuffle 过 程 中 ， 被 用 于 传递 Shuffle 相关 信息 给 各 个 
并 行 任务 。 

4) partitioner: 分 区 器 ， 用 于 决定 Shuffle 过 程 中 reducer 的 个 数 《〈 实 际 上 是 子 RDD 的 分 
区 个 数 ) 以 及 map 端的 一 条 数据 记录 应 该 分 配给 哪 一 个 Reducer， 也 可 以 被 用 在 
CoGroupedRDD 中 ， 确 定 父 RDD 与 子 RDD 之 间 的 依赖 关系 类 型 。 关 于 分 区 器 的 细节 ， 我 
们 会 在 6.5 节 中 介绍 。 

5) serializer: 序列 化 器 ， 用 于 Shuffle map 端 数据 的 序列 化 和 reduce 端 数据 的 反 序列 化 。 

6) KeyOrdering: 键 值 排序 策略 ， 用 于 决定 子 RDD 的 一 个 分 区 内 ， 如 何 根据 键 值 对 <K， 
V> 类 型 数据 记录 进行 排序 。 

7) Aggregator: 聚合 器 ， 内 部 包含 了 多 个 聚合 函数 ， 比 较 重 要 的 函数 有 createCombiner: V 
=> C，mergeValue: (C, V) => C 以 及 mergeCombiners: (C, C) => C。 例如， 对 于 groupByKey 
操作 ，createCombiner 表示 把 第 一 个 元 素 放 入 到 集合 中 ，mergeValue 表示 一 个 元 素 添加 到 集 
合 中 ，mergeCombiners 表示 把 两 个 集合 进行 合并 。 这 些 函 数 被 用 于 Shuffle 过 程 中 数据 的 聚 
合 ， 第 7 章 将 会 介绍 其 作用 。 

8) mapSideCombine: 用 于 指定 Shuffle 过 程 中 是 否 需要 在 map 端 进行 combine 操作 。 如 果 
指定 该 值 为 tue， 由 于 combine 操作 需要 用 到 聚合 器 中 的 相关 聚合 函数 ， 因 此 Aggregator 不 能 头 
空 ， 和 否则 Spark 会 抛 出 异常 。 例 如 在 groupByKey 转换 操作 对 应 的 ShuffleDependency 中 ， 
mapSideCombine = false， 而 在 reduceByKey 转换 操作 中 ，mapSideCombine = true。 


6.3.5 ”依赖 与 容错 机 制 


介绍 完 依 赖 的 类 别 和 实现 之 后 ， 回 过 头 来 再 从 分 区 的 角度 继续 探究 Spark 是 如 何 通过 依 
赖 关 系 来 实现 容错 机 制 的 。 图 6-5 给 出 了 一 张 依赖 关系 图 ，fileRDD 经 历 了 map、reduce 以 
及 filter 3 次 转换 操作 ， 得 到 了 最 终 的 RDD， 其 中 ，map、filter 操作 对 应 的 依赖 为 罕 依 赖 ， 


加 | 
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reduce 操作 对 应 的 是 Shuffle 依赖 。 


fileRDD RDD 1 RDD 2 RDD 3 


图 6-5 包含 多 个 转换 操作 的 依赖 关系 图 


假设 最 终 RDD 第 一 块 分 区 内 的 数据 因为 某 些 原因 丢失 了 ， 由 于 RDD 内 的 每 一 个 分 
区 都 会 记录 其 对 应 的 父 RDD 分 区 的 信息 ， 因 此 沿 着 依赖 关系 往 回 走 ， 就 能 找到 该 分 区 数 
据 最 终 来 源 于 fileRDD 的 所 有 分 区 ， 再 沿 着 依赖 关系 往 后 计算 ， 即 可 得 到 丢失 的 分 区 数 
据 ， 如 图 6-6 所 示 。 


fileRDD RDD 1 RDD 2 RDD3 


[| 图 6-6 所 示 的 例子 并 不 严 说， 通常 只 有 执行 了 持久 化 ， 存 储 在 存储 介质 中 的 RDD 分 区 才 会 出 现 
数据 丢失 的 情况 ， 但 是 上 例 中 最 终 的 RDD 并 没有 执行 持久 化 操作 。 事 实 上 ，Spark 将 没有 被 持久 
化 数据 重新 被 计算 ， 以 及 持久 化 的 数据 第 一 次 被 计算 ， 也 等 价 视 为 数据 “丢失 ”， 在 6.4 节 中 会 
看 到 这 一 点 。 


6.3.6 ”依赖 与 并 行 计 算 


在 上 一 节 中 看 到 ， 在 RDD 中 ， 可 以 通过 计算 链 (Computing Chain) 来 计算 某 个 RDD 
分 区 内 的 数据 ， 分 区 是 并 行 计算 的 基本 单位 ， 因 此 喜欢 思考 的 读者 可 能 会 产生 这 么 一 种 想 
法 : 能 否 把 RDD 每 个 分 区 内 数据 的 计算 当成 一 个 并 行 任务 ， 每 个 并 行 任务 包含 一 个 计算 
链 ， 将 一 个 计算 链 交 付 给 一 个 CPU 核心 去 执行 ,集群 中 的 CPU 核心 一 起 把 RDD 内 的 所 有 
分 区 计算 出 来 。 答 案 是 可 以 ， 这 得 益 于 RDD 内 部 分 区 的 数据 依赖 相互 之 间 并 不 会 干扰 ， 而 
Spark 也 是 这 么 做 的 ， 但 在 实现 过 程 中 ， 仍 有 很 多 实际 问题 需要 去 考虑 。 下 面 进一步 观察 鹤 
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依赖 、Shuffle 依赖 在 做 并 行 计算 时 候 的 异同 点 。 


先 来 看 图 6-7 左 侧 的 依赖 图 ， 依 赖 图 中 所 有 的 依赖 关系 都 是 窗 依 赖 〈 包 括 一 对 一 依赖 和 


范围 依赖 )， 可 以 看 到 ， 不 仅 计算 链 是 独立 不 干扰 的 《所 以 可 以 并 行 计算 )， 所 有 计算 链 内 的 
每 个 分 区 单元 的 计算 工作 也 不 会 发 生 重 复 ， 如 6-7 右 侧 的 图 所 示 。 这 意味 着 除非 执行 了 持久 
化 操作 ， 和 否则 计算 过 程 中 产生 的 中 间 数 据 没 有 必要 保留 一 一 因为 当前 分 区 的 数据 只 会 给 计 


算 链 中 的 下 一 个 分 区 使 用 ， 而 不 用 专门 保留 给 其 他 计算 链 使 用 。 


图 6-7 窒 依 赖 中 的 计算 链 


再 来 观察 Shuffle 依赖 的 计算 链 ， 如 图 6-8 左 侧 所 示 的 图 中 ， 既 有 窦 依赖 ， 又 有 Shuffle 
依赖 ， 由 于 Shuffle 依赖 中 ， 子 RDD 一 个 分 区 的 数据 依赖 于 父 RDD 内 所 有 分 区 的 数据 ， 当 


想 计 算 末 RDD 中 一 个 分 区 的 数据 时 ，Shuffle 依赖 处 需要 把 父 RDD 所 有 分 
来 ， 如 6-8 右 侧 图 所 示 


区 的 数据 计算 出 


而 这 些 数 据 ， 在 计算 末 RDD 另外 一 个 分 区 的 数据 时 候 ， 同 样 


会 被 用 到 。 如 果 做 到 计算 链 的 并 行 计算 的 话 ， 这 就 意味 着 ， 要 么 Shuffle 依赖 处 父 RDD 的 数 
据 在 每 次 需要 使 用 的 时 候 都 重复 计算 一 遍 ， 要 么 想 办 法 把 父 RDD 数据 保存 起 来 ， 提 供给 其 


余 分 区 的 数据 计算 使 用 。 


RDD 1 


图 6-8 Shuffle 依赖 中 的 计算 链 


Spark 采用 的 是 第 二 种 办 法 ， 但 保存 数据 的 方法 可 能 与 读者 想象 中 的 会 有 所 不 同 ，Spark 
把 计算 链 从 Shuffle 依赖 处 断 开 ， 划 分 成 不 同 的 阶段 Stage )， 阶 段 之 间 存 在 依赖 关系 其 实 


就 是 Shuffle 依赖 )， 从 而 可 以 构建 一 张 不 同 阶段 之 间 的 有 向 无 环 图 (DAG)。 
容 会 在 第 7 章 中 细 述 。 


178 


有 关 DAG 的 内 


0.4 计算 函数 


RDD 的 计算 是 惰性 的 ， 一 系列 转换 操作 只 有 在 过 到 动作 操作 时 才 会 去 计算 数据 ， 而 分 
区 是 数据 计算 的 基本 单位 ， 在 本 节 会 从 源码 角度 观察 惰性 计算 的 实现 机 制 ， 以 及 每 个 分 区 的 
数据 是 如 何 被 计算 得 到 的 。 
第 7 章 发 现 : 在 计算 链 中 ， 无 论 一 个 RDD 有 多 复杂 ， 其 最 终 都 会 调用 内 部 的 compute 
函数 来 计算 一 个 分 区 的 数据 。 读 者 现在 暂时 无 需 关 心 这 个 函数 在 什么 时 候 什么 情况 下 会 被 调 
， 只 需要 跟着 编者 一 起 研究 其 源码 实现 即 可 。 


6.4.1 compute 方法 
RDD 抽象 类 要 求 其 所 有 子 类 都 必须 实现 compute 方法 ， 该 方法 接受 的 参数 之 一 是 一 个 
Partition 对 象 ， 目 的 是 计算 该 分 区 中 的 数据 。 
以 MappedRDD 类 为 例 ， 观 察 其 内 部 compute 方法 的 实现 ， 代 码 如 下 。 


override def compute(split: Partition, context: TaskContext) = 


firstParent[T].iterator(split, context).map(f) 


wa 


MappedRDD 类 的 compute 方法 调用 当前 RDD 内 的 第 一 个 父 RDD 的 iterator 方法 ， 该 方 
的 目的 是 拉 取 父 RDD 对 应 分 区 内 的 数据 。iterator 方法 会 返回 一 个 迭代 器 对 象 ， 人 迭代 器 内 部 
存储 的 每 个 元 素 即 父 RDD 对 应 分 区 内 的 数据 记录 。 

RDD 的 粗 粒度 转换 体现 在 调用 达 代 器 的 map 方法 之 上 , f 函数 是 map 转换 操作 的 函数 
参数 ，RDD 会 对 一 个 分 区 而 不 是 一 条 一 条 的 数据 记录 )〉 内 的 数据 执行 单个 操作 f， 最 终 返 
回 包 含 所 有 经 转换 过 的 数据 记录 的 新 迭代 器 ， 即 新 的 分 区 。 
其 他 RDD 子 类 的 compute 方法 与 之 类 似 ， 在 需要 用 到 父 RDD 的 分 区 数据 时 候 ， 就 会 调 
] iterator 方法 ， 然 后 根据 需求 在 得 到 的 数据 之 上 执行 粗 粒 度 的 操作 。 换 句 话 说 ，compute 函 
数 负责 的 是 父 RDD 分 区 数据 到 子 RDD 分 区 数据 的 变换 逻辑 。 


6.4.2 iterator 方法 
iterator 方法 的 实现 在 RDD 抽象 类 中 ， 代 码 如 下 。 


final def iterator(split: Partition, context: TaskContext): Iterator[T] = { 
if (storageLevel != StorageLevel.NONE) { 
SparkEnv.get.cacheManager.getOrCompute(this, split, context, storageLevel) 
} else { 
computeOrReadCheckpoint(split, context) 
} 
} 


iterator 方法 首先 检查 当前 RDD 的 存储 级 别 ， 如 果 存 储 级 别 为 none， 说 明 分 区 的 数据 要 
么 已 经 存储 在 文件 系统 当中 ， 要 么 当前 RDD 曾经 执行 过 cache、persise 等 持久 化 操作 ， 因 此 
需要 想 办 法 把 数据 从 存储 介质 中 提取 出 来 。iterator 方法 继续 调用 CacheManager 的 
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getOrCompute 方法 ， 代 码 如 下 。 


def getOrCompute[T]( 
rdd: RDDIT), 
partition: Partition, 
context: TaskContext, 
storageLevel: StorageLevel): Iterator[T] = { 
val key = RDDBlockId(rdd.id, partition.index) 
blockManager.get(key) match { 
case Some(blockResult) => 
// 分 区 已 经 持久 化 ， 直 接 返 回 值 
context.taskMetrics.inputMetrics = Some(blockResult.input Metrics) 


new InterruptibleIterator(context, blockResult.data.asInstanceOf[Iterator[T]]) 


case None => 


val computedValues = rdd.computeOrReadCheckpoint(partition, context) 


val cachedValues = putInBlockManager(key, computedValues, storageLevel, updatedBlocks) 


new InterruptibleIterator(contexb cachedValues) 


getOrCompute 方法 会 根据 RDD 编号 与 分 区 编号 计算 得 到 当前 分 区 在 存储 层 对 应 的 块 编 
号 ， 通 过 存储 层 提 供 的 数据 读 取 接 口 提 取出 块 的 数据 。 这 时 候 会 有 如 下 的 两 种 可 能 情况 发 生 。 


1) 数据 之 前 已 经 存储 在 存储 介质 当中 ， 可 能 是 数据 本 身 就 在 存储 介质 〈 


中 的 文件 创建 得 到 的 RDD) 当中 ， 也 可 能 是 RDD 经 过 持久 化 操作 并 经 历 了 一 次 计算 过 程 。 


这 时 候 就 能 成 功 提取 得 到 数据 并 将 其 返回 。 


如 读 取 HDFS 


2) 数据 不 在 存储 介质 当中 ， 可 能 是 数据 已 经 丢失 ， 或 者 RDD 经 过 持久 化 操作 ， 但 是 当 


到 存储 介质 中 ， 下 次 就 无 需 再 重复 计算 。 


前 分 区 数据 是 第 一 次 被 计算 ， 因 此 会 出 现 拉 取得 到 数据 为 none 的 情况 。 这 就 意味 着 需要 计 
算 分 区 数据 ， 继 续 调用 RDD 类 computeOrReadCheckpoint 方法 ， 并 将 计算 得 到 的 数据 缓存 


如 果 当 前 RDD 的 存储 级 别 为 none， 说 明 为 未 经 持久 化 的 RDD， 需 要 重新 计算 RDD 内 
的 数据 ， 这 时 候 调 用 RDD 的 computeOrReadCheckpoint 方法 ， 该 方法 也 在 持久 化 RDD 的 分 


区 获取 数据 失败 时 被 调用 。computeOrReadCheckpoint 的 代码 如 下 。 


private[spark] def computeOrReadCheckpoint(split: Partition, context: TaskContext): It 
if isCheckpointed) firstParent[T].iterator(split, context) else compute(split, context) 


} 
computeOrReadCheckpoint 方法 会 检查 当前 RDD 是 否 已 经 被 标记 成 检查 点 ， 


erator[T] = { 


如 果 未 被 标记 


成 检查 点 ， 则 执行 自身 的 compute 方法 来 计算 分 区 数据 ， 和 否则 就 直接 拉 取 父 RDD 分 区 内 的 数 


据 。 需要 注意 的 是 ， 对 于 标记 成 检查 点 的 情况 ， 当 前 RDD 的 父 RDD 不 再 是 原 儿 


中 ， 因 此 最 终 该 对 象 会 从 文件 系统 中 读 取 数据 并 返回 给 computeOrReadCheckpoint 
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E 转 换 操作 中 提 


供 数 据 的 父 RDD， 而 是 被 Spark 蔡 换 成 一 个 CheckPoint 对 象 ， 该 对 象 中 的 数据 存放 在 文件 系统 


6.5 分 区 器 


分 区 器 ， 在 前 面 章 节 中 或 多 或 少 有 被 提 及 。RDD 中 ， 分 区 器 主要 有 如 下 的 两 个 作用 。 

1) 决定 RDD 的 分 区 数量 。 例 如 执行 操作 groupByKeyCnew HashPartitioner(2)) 所 生成 的 
ShuffledRDD 中 ， 分 区 的 数目 等 于 2。 

2) 决定 Shuffle 过 程 中 reducer 的 个 数 〈 实 际 上 是 子 RDD 的 分 区 个 数 ) 以 及 map 端的 
一 条 数据 记录 应 该 分 配给 哪 一 个 reducer。 

3) 决定 依赖 类 型 ， 若 父 RDD 和 子 RDD 都 有 分 区 器 且 分 区 器 相同 ， 则 两 个 RDD 相互 
之 间 是 罕 依 赖 ， 否 则 是 Shuffle 依赖 . 


由 于 分 区 器 能 够 间接 决定 RDD 中 分 区 的 数量 和 分 区 内 部 数据 记录 的 个 数 ， 因 此 选择 合 


适 的 分 区 器 能 够 有 效 提高 并 行 计算 的 性 能 。Spark 内 置 了 两 类 分 区 器 ， 分 别 是 哈 希 分 区 器 


(Hash Partitioner) 和 范围 分 区 器 (Range Partitioner)， 此 外 ， 开 发 者 还 可 以 根据 实际 需求 编 


写 自己 的 分 区 器 。 分 区 器 
义 分 区 器 ) 需要 实现 自己 


对 应 的 源码 实现 是 Partitioner 抽象 类 ，Partitioner 的 子 类 (包括 自 定 
的 getPartition 函数 ， 用 于 确定 对 于 某 一 特定 键 值 的 键 值 对 记录 ， 会 


被 分 配 到 子 RDD 中 的 哪 一 个 分 区 。 实 现代 码 如 下 。 


abstract class Partitioner extends Serializable { 
def numPartitions: Int 
def getPartition(key: Any): Int 


} 


6.S.1 哈 希 分 区 器 


哈 希 分 区 器 的 实现 在 HashPartitioner 中 ， 其 getPartition 方法 的 实现 很 简单 ， 取 键 值 的 
hashCode， 除 上 子 RDD 分 区 个 数 ， 取 余 即 可 。 6-8 展示 了 HashPartitioner 的 一 个 示例 ， 


6.5.2 ”范围 分 区 需 


注意 ， 此 例 中 整数 的 hashCode 即 其 本 身 。 


区 器 的 一 个 例子 


哈 希 分 析 器 的 实现 简 


单 ， 运 行 速度 快 ， 但 其 本 身 有 一 明显 的 缺点 ;由 于 不 关心 键 值 的 分 
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布 情况 ， 其 散 列 到 不 同 分 区 的 概率 会 因数 据 而 异 ， 个 别 
据 多 ， 一 部 分 则 比较 少 。 范 


青 况 下 会 导致 一 部 分 分 区 分 配 到 的 数 


器 进行 分 区 的 一 个 示例 如 6-9 图 所 示 。 


一 一 一 一 一 


<], vl> 


<3, v2> 
<6, v3> 


导 


围 分 区 器 则 在 一 定 程度 上 避免 这 个 问题 ， 范 围 分 
的 分 区 尽 可 能 分 配 得 到 相同 多 的 数据 ， 并 且 所 有 分 区 内 数据 的 上 界 是 有 序 的。 使 月 


区 器 争取 将 所 有 


日 范围 分 区 


<5,v4> 
<4,v5> 
L, <2,v6> 
图 6-9 范围 分 区 器 的 一 个 例子 
范围 分 区 器 的 原理 与 Apache Hadoop 上 的 TeraSort 算法 有 些 类 似 ， 范 围 分 区 器 希望 能 够 


将 所 有 键 值 划分 成 几 个 数据 块 〈 数 目 等 于 子 RDD 的 分 
内 ， 数 据 的 个 数 应 该 是 基本 相等 的 ， 
个 是 如 何 确 


个 数据 块 边界 范围 


定 的 分 区 。 


1. 确 


对 于 第 一 个 问题 ， 范 围 分 
RDD 中 的 所 有 分 区 进行 采 相 
据 块 ， 找 

在 采样 算法 上 ， 范 围 
一 个 元 素数 量 为 n 的 集合 $ 中， 抽取 


条 件 限 制 ， 


具体 关于 确 


定 某 个 键 值 对 记录 


区 个 数 )， 找 出 每 个 数据 块 的 边界 ， 
根据 边界 可 以 将 键 值 对 记录 指派 给 特 


这 时 候 就 需要 考虑 两 个 问题 : 
属于 哪个 数据 块 《 分 区 )。 


定 边界 


每 个 数据 块 的 上 限 与 下 限 。 


Hk 个 样本 。 
不 能 把 数据 全 部 放 到 内 存 中 ， 而 该 算法 
定 边界 算法 的 细节 ， 读 者 可 以 参考 


sketch 方法 


2. 快 


对 于 第 二 个 问题 ， 范 围 


的 边界 值 ， 


以 及 determineBounds 方法 的 相关 实现 。 
速 定位 


区 器 给 的 方法 与 TeraSort 算法 一 致 ， 即 采样 。 
并 对 采样 的 结果 进行 排序 ， 然 后 按照 权重 ，; 


定数 据 块 的 边界 ， 一 个 是 如 何 快速 确 


个 


范围 分 区 器 对 父 
各 其 划分 成 N 个 数 


分 区 器 采用 的 是 鱼 塘 采 样 法 (Reservoir Sampling )。 该 方法 能 够 从 


其 中 ，n 是 一 个 很 大 ， 或 者 未 知 的 值 。 受 
则 能 保证 每 个 样本 抽取 的 概率 是 一 致 的 。 
RangePartitioner 类 中 rangeBounds 方法 、 


分 


根据 情况 继续 查找 左右 两 侧 的 边界 值 


~ 


区 器 给 的 方法 是 使 用 二 分 查找 法 。 若 边界 个 数 少 于 或 等 于 
128， 则 分 区 器 直接 采用 穷 举 法 ， 从 头 扫描 ， 找 到 键 值 所 落 在 的 数据 块 ， 从 而 确定 分 区 编 
号 ; 若 边 界 个 数 大 于 128， 则 对 边界 进行 二 分 查找 


， 判 断 当 前 键 值 是 大 于 等 于 或 者 小 于 中 间 
直到 分 区 刚好 落 在 中 间 位 置 。 


具体 关于 快速 定位 算法 的 细节 ， 读 者 可 以 参考 RangePartitioner 类 中 getPartition 方法 的 


实现 。 


6.5.3 ”默认 分 区 器 


对 于 键 值 对 RDD， 


二 


右 


开发 者 没有 明确 指明 使 用 的 分 区 器 ， 则 Spark 会 使 用 默认 的 分 区 


器 ， 其 实现 存在 于 Partitioner 类 的 defaultPartitioner 方法 内 ， 代 码 如 下 。 
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def defaultPartitioner(rdd: RDD[L ], others: RDD![_]*): Partitioner = { 
val bySize = (Seq(rdd) ++ others).sortBy(_.partitions.size).reverse 
for (r <- bySize if r.partitioner.isDefined) { 
return r.partitioner.get 


} 


if (rdd.context.conf.contains("spark.default.parallelism")) { 
new HashPartitioner(rdd.context.defaultParallelism) 

} else { 
new HashPartitioner(bySize.head.partitions.size) 


} 
} 
可 以 看 到 ，Spatk 会 把 父 RDD 和 子 RDD 按照 RDD 的 分 区 个 数 从 大 到 小 进行 排序 ， 只 
要 其 中 有 一 个 RDD 指定 了 分 区 器 ， 则 子 RDD 的 分 区 器 将 与 其 一 致 ， 若 所 有 的 RDD 都 没有 
指定 分 区 器 ， 则 采用 哈 希 分 区 器 ， 分 区 个 数 等 于 SparkContext.defaultParallelism，6.2.2 节 曾 
介绍 过 该 值 。 


6.6 持久 化 


持久 化 过 程 包括 persist、cache、unpersist 3 个 操作 ， 其 实现 在 RDD 类 中 ， 代 码 如 下 。 


I 


def persist(newLevel: StorageLevel): this.type = { 
/TODO: 解决 StorageLevel 的 变化 
if (storageLevel != StorageLevel.NONE && newLevel != storageLevel) { 
throw new UnsupportedOperationException( 
"Cannot change storage level of an RDD after it was already assigned a level") 
} 
sc.persistRDD(this) 
/ 使 用 上 下 文 的 清理 器 注册 RDD， 以 达到 基于 GC 的 自动 清理 
sc.cleaner.foreach(_.registerRDDForCleanup(this)) 


storageLevel = newLevel 
this 
} 
def persist(): this.type = persist(StorageLevel. MEMORY_ONLY) 
def cache(): this.type = persist() 
def unpersist(blocking: Boolean = true): this.type = { 
logInfo("Removing RDD " + id + " from persistence list") 
sc.unpersistRDD(id, blocking) 
storageLevel = StorageLevel.NONE 
this 
} 


cache 方法 等 价 于 StorageLevel.MOMORY_ONLY 的 persist 方法 ， 而 persist 方法 也 仅仅 
只 是 非常 简单 地 修改 了 当前 RDD 的 存储 级 别 而 已 ，SparkContext 中 维护 了 一 张 哈 希 表 
persistentRdds， 用 于 登记 所 有 被 持久 化 的 RDD， 执 行 persist 操作 时 ， 会 将 RDD 编号 作为 
键 ， 把 RDD 记录 到 persistentRdds 表 中 ，unpersist 函数 会 调用 SparkContext 对 象 的 
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unpersistRDD 方法 ， 除 了 将 RDD 从 哈 希 表 persistenRDDs 中 移 除 之 外 ， 该 方法 还 会 将 该 
RDD 中 的 分 区 对 应 的 所 有 块 从 存储 介质 中 删除 。 


[6.7 检查 点 


检查 点 机 制 的 实现 与 持久 化 的 实现 有 着 比较 大 的 区 别 。 检 查 点 并 非 第 一 次 计算 就 将 计算 
结果 进行 存储 ， 而 是 等 到 一 个 作业 结束 之 后 再 启动 专门 的 一 个 作业 去 完成 存储 的 操作 。 
checkPoint 操作 的 实现 在 RDD 类 内 ，checkPoin 方法 会 实例 化 一 个 RDDCheckpointData 对 象 
于 存储 与 checkpoint 相关 的 所 有 信息 ， 并 调用 RDDCheckpointData 内 部 的 markForCheckpoint 方 
法 将 当前 的 RDDCheckpointData 对 象 进行 标记 ， 代 码 如 下 。 
def checkpointO { 
if (context.checkpointDir.isEmpty) { 
throw new SparkException("Checkpoint directory has not been set in the SparkContext") 
} else if (checkpointData.isEmpty) { 


checkpointData = Some(new RDDCheckpointData(this)) 
checkpointData.get.markForCheckpoint() 


} 
} 


RDDCheckpointData 类 内 部 有 一 枚 举 类 型 CheckpointState， 用 于 表示 RDD 检查 点 的 当前 
大 态 ， 其 可 能 值 有 : Initialized, MarkForCheckpoint, CheckpointingInProgress, Chcekpointed。4 种 
A 态 的 转换 过 程 如 下 。 

(1) Initialized 状态 

该 状态 是 实例 化 RDDCheckpointData 后 的 默认 状态 ， 该 状态 存在 的 时 间 极 短 ， 在 
checkPoint 操作 执行 完毕 之 后 便 会 转 为 下 一 个 状态 。 

(2) MarkForCheckpoint 状态 
用 户 在 Initialized 状态 时 调用 RDDCheckpointData 的 markForCheckpoint 方法 后 ， 所 转换 
成 的 状态 ， 用 于 标记 当前 的 RDD 已 经 建立 了 检查 点 。 

(3) CheckpointingInProgress 状态 

每 个 作业 结束 后 都 会 对 作业 的 末 RDD 调用 其 doCheckpoint 方法 ， 该 方法 会 顺 着 RDD 
的 关系 链 往 前 遍历 ， 直 到 遇见 内 部 RDDCheckpointData 对 象 被 标记 为 MarkForCheckpoint 的 
RDD 为 止 ， 此 时 将 该 RDD 的 RDDCheckpointData 对 象 标记 为 CheckpointingInProgress， 并 
启动 一 个 作业 来 完成 数据 写 入 操作 。 

(4) Chcekpointed 状态 

新 启动 作业 完成 数据 写 入 操作 之 后 ， 将 建立 检查 点 的 RDD 的 所 有 依赖 全 部 清除 ， 将 
RDD 内 部 RDDCheckpointData 标记 为 Chcekpointed， 将 RDD 的 父 RDD 重新 设置 为 一 个 
CheckpointRDD 对 象 ， 父 RDD 的 compute 方法 会 直接 从 文件 系统 中 读 取 数据 。 


6.8 本章 小 结 


至 此 ， 本 章 章 首 提 出 的 几 个 问题 ， 已 经 给 出 了 答案 ， 这 里 对 其 做 一 个 总 结 : 


六 


Ms 


了 


< 
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1) DD 分 区 是 并 行 计 算 的 基本 单位 。 

2) 分 区 的 分 配 遵 循 两 个 原则 ， 一 是 单个 RDD 分 区 的 数量 要 尽 可 能 与 可 用 核心 总 数 相 
同 ， 二 是 单个 RDD 不 同 分 区 内 部 数据 的 数量 要 尽 可 能 保持 一 致 。 

3) 分 区 数据 的 计算 在 RDD 计算 函数 内 实现 。RDD 分 区 的 计算 是 惰性 ， 因 此 其 会 根据 
依赖 关系 ， 形 成 一 条 计算 链 。 

4) RDD 通过 依赖 关系 来 记录 更 新 ， 生 成 计算 链 ， 从 而 实现 RDD 的 数据 计算 和 容错 
机 制 。 

5) 持久 化 和 检查 点 机 制 能 够 在 计算 链 过 长 的 情况 下 ， 减 少 计 算 的 时 间 成 本 。 

RDD 的 每 一 个 特性 ， 包 括 只 读 性 、 惰 性 、 容 错 性 、 粗 粒度 转换 等 ， 在 本 质 上 都 是 为 并 
行 计算 这 一 目的 而 设计 。 
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第 7 章 Spark 调度 机 制 


在 上 一 章 中 ， 我 们 了 解 了 Spark 做 并 行 计算 的 本 质 其 实 就 是 切 分 多 条 计算 链 ， 且 每 条 计 
算 链 作为 一 个 并 行 任务 交付 给 集群 中 的 核心 去 并 行 执行 的 过 程 。 但 是 具体 到 该 如 何 切 分 ， 划 
分 之 后 交付 给 哪个 核心 去 执行 ， 任 务 之 间 的 执行 顺序 如 何 确定 ， 执 行 完 毕 之 后 的 结果 该 如 何 
汇总 ， 多 个 应 用 之 间 该 如 何 协调 等 等 诸多 问题 还 没有 探究 ， 因 此 本 章 将 会 在 上 一 章 的 基础 
上 ， 继 续 深入 到 Spark 底层 的 调度 模块 ， 去 理解 使 Spark 程序 得 以 顺利 运转 的 核心 机 制 一 一 
调度 机 制 。Spark 内 部 有 两 套 不 同 的 调度 机 制 在 工作 ， 分 别 被 应 用 于 集群 资源 的 调度 和 应 用 
程序 内 部 作业 的 调度 。 

集群 资源 的 调度 由 集群 管理 器 (Cluster Manager) 控制 ， 和 集群 管理 器 负责 协调 所 有 的 应 
用 程序 ， 为 每 个 Spark 应 用 分 配 适 当 的 计算 资源 ，Spark 目前 文 持 3 种 集群 管理 器 ， 分 别 是 
YARN、Mesos 以 及 Spark 内 部 自 带 的 Standalone。 本 书 侧重 讲解 Standalone 的 调度 机 制 。 
后 者 则 是 由 作业 调度 器 (Job Scheduler) 来 控制 ， 根 据 调 度 过 程 的 先后 顺序 和 调度 内 容 
的 不 同 ， 可 把 作业 调度 器 再 进一步 分 成 DAG 调度 器 (DAG Scheduler) 和 任务 调度 器 〈Task 
Scheduler ) 。 

DAG 即 Directed Acyclic Graph， 有 向 无 环 图 的 意思 ，Spark 会 存储 RDD 之 间 的 依赖 关 
系 ， 依 赖 关系 是 有 疝 的 ， 总 是 由 子 RDD 指向 所 依赖 的 父 RDD 平时 见 到 的 依赖 图 ，RDD 
之 间 的 箭头 一 般 是 数据 流向 而 不 是 依赖 指向 ， 因 此 方向 刚好 相反 )，RDD 依赖 的 有 癌 性 质 导 
致 RDD 的 计算 呈现 出 明显 的 阶段 特征 ， 因 此 所 形成 的 计算 链 也 可 以 被 分 割 成 多 个 阶段 ， 后 
面 的 阶段 依赖 于 前 面 的 阶段 是 否 已 经 达成 〈 即 RDD 内 部 数据 被 计算 完毕 )。 由 于 RDD 内 部 
数据 不 可 变 ， 阶 段 相互 之 间 的 依赖 关系 所 形成 的 有 向 图 自然 也 不 会 出 现 回 路 ， 因 此 可 以 用 
DAG 来 表示 阶段 的 依赖 关系 。DAG 调度 器 的 目的 就 是 把 一 个 作业 划分 成 不 同 阶段 ， 根 据 阶 
段 的 依赖 关系 构建 一 张 DAG， 并 进入 到 阶段 内 部 ， 把 阶段 划分 成 可 以 并 行 计算 的 并 行 任 
务 ， 最 后 再 把 一 个 阶段 内 的 所 有 任务 交付 给 任务 调度 器 来 负责 剩 下 的 调度 工作 。 任 务 调度 器 
接收 来 自 DAG 调度 器 提交 的 多 个 任务 集 ， 按 照 Spark 配置 项 里 指定 的 调度 算法 ， 来 决定 任 
务 集 ， 以 及 任务 集 内 部 任务 的 执行 顺序 ， 并 把 任务 交付 给 CPU 核心 去 执行 ， 每 个 任务 执行 
完毕 之 后 ， 会 向 DAG 调度 器 反映 执行 情况 ， 当 作业 内 所 有 的 任务 执行 完毕 之 后 ， 整 个 作业 
即 执行 成 功 。 
本 章 会 围绕 着 如 上 所 述 的 有 关 集 群 、DAG 以 及 任务 调度 模块 ， 介 绍 Spark 的 整套 调度 
机 制 。 


7.1 调度 基础 


在 具体 讲解 调度 过 程 之 前 ， 先 为 读者 介绍 在 调度 过 程 中 经 常会 出 现 的 一 些 基本 概念 ， 以 
及 各 个 调度 模块 之 前 的 通信 机 制 ， 以 帮助 读者 能 够 更 清晰 地 理解 调度 过 程 。 


> 
< 


7.1.1 基本 概念 
(1) 应 


每 次 通过 spark-submit 命令 提交 的 Jar 包 ， 都 可 以 视 为 一 个 Spark 应 
程序 是 集群 管理 器 调度 的 基本 单位 ， 一 个 应 用 程序 对 应 着 一 个 对 
(2) 驱动 程序 (Driver Program) 
包含 main 入 口 函 数 并 在 main 函数 内 实例 化 SparkContext 对 象 的 应 用 程序 称 为 驱动 程 
序 。Driver 程序 所 运行 的 机 器 称 之 为 客户 前 


程序 (Application ) 


Worker 节点 ， 也 可 能 两 者 都 不 是 。 


(3) Master 节点 


运行 Master 守护 进程 的 集群 节点 ， 管 理 着 


多 个 ， 但 一 次 只 会 有 
(4) Worker 节点 


运行 Worker 守护 线程 的 集群 节点 ， 是 集 和 


个 处 于 


着 整个 集群， 


活跃 状态 的 Master 节点 ， 其 余 属 于 备 月 


个 集群 中 ，Master 节点 可 以 有 


程序 。Spark 应 用 


K 动 程序 。 


骨 《Client)， 而 客户 端 可 能 是 Master 节点 ， 可 能 是 


节点 。 


资源 的 贡献 节点 ， 一 个 Worker 内 部 包含 多 个 


Executor。 一 个 集群 中 ，Worker 节点 一 般 会 有 多 个 ， 所 有 Worker 节点 统一 受 Master 节点 上 


Master 进程 的 管理 。 


(5) 任务 执行 器 (Executor) 


Worker 节点 上 任务 执行 的 地 方 。 一 个 Worker 节点 上 可 能 


Executor 都 拥有 固定 的 
(6) 作业 《Job) 


核心 数量 和 堆栈 大 小 。 


RDD 数据 的 计 入 


个 计算 流程 ， 


算 。 在 6.4 节 中 介绍 了 RDD 数据 计算 
数据 为 止 ， 然后 再 从 前 人 
称 为 一 个 


互 独立 ， 因 此 无 须 对 


(7) 阶段 (Stage) 


RDD 的 计算 具有 显著 的 阶段 特征 ， 计 息 


作业 。 一 个 Spark 应 月 


多 个 Executor， 每 个 


是 惰性 的 ， 在 遇 到 动作 操作 之 前 ，RDD 内 部 的 数据 不 会 真正 的 被 计 


的 流程 : 沿 着 依赖 从 后 往 前 递归 ， 直 到 遇 到 持久 化 的 


后 计算 数据 ， 直 到 得 到 动作 操作 所 需求 的 数据 为 止 。 这 里 把 这 一 整 
程序 会 包含 多 个 作业 ， 但 由 于 这 些 作业 之 间 相 


进行 调度 ， 仅 考虑 一 个 作业 内 部 的 调度 过 程 即 可 。 


链 内 从 任意 一 个 或 者 多 个 连接 在 一 起 的 RDD 到 


末尾 最 后 一 个 RDD“〔〈 一 般 被 称 为 未 RDD， 即 final RDD) 的 内 部 所 有 分 区 数据 被 计算 出 来 时 


候 的 状态 ， 都 可 以 将 


其 视 为 一 个 阶段 ， 


内 此 一 个 作业 内 部 的 状态 划分 会 有 许多 种 策略 ， 


Spark 根据 Shuffle 依赖 来 划分 阶段 ， 后 面 章节 将 具体 介绍 Spark 的 阶段 划分 策略 。 阶 段 划 分 


之 后 ，RDD 的 计 入 


链 也 被 切断 。 
(8) 任务 集 (Task Set) 与 从 


E 务 (Task) 


每 一 个 阶段 内 部 包含 多 个 可 以 并 发 执行 的 任务 ， 这 里 把 同 
在 一 起 ， 称 为 一 个 任务 集 。 任 务 集 是 DAG 调度 器 交付 给 任务 调度 器 的 基本 单位 。 


7.1.2 ”通信 框架 


为 了 能 够 实现 作业 、 阶 段 以 及 人 
有] Actor 模型 的 消息 传递 机 制 |， 实际 J 
Actor 模型 存在 Actor 和 Ref 两 类 对 象 ， 在 Akka 库 中 分 别 | 


EF 务 的 并 行 控制 ， 


个 阶段 内 部 的 所 有 任务 汇总 


函数 actorOf 和 actorFor 创建 。 


Spark 内 部 模块 之 间 的 通信 采用 了 一 套 
上 使 用 了 Actor 模型 的 Scala 


语言 实现 的 Akka 库 。 
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为 方便 理解 ，Actor 对 象 可 被 简单 类 比 为 Web 服务 中 的 服务 器 端 ， 用 于 接收 来 自 客 户 端的 请 
求 ， 并 根据 请 求 消息 的 类 型 执行 不 同 的 操作 ， 返 回 结果 ;Ref 对 象 则 可 以 被 简单 类 比 成 Web 
服务 中 的 客户 端 ， 用 于 向 服务 器 端 发 送 请 求 并 接收 处 理 结果 。 

Spark 之 所 以 采用 Akka 通信 和 框架， 很 大 一 个 原因 是 Akka 框架 内 (或 者 Actor 模型 ) 所 
有 的 元 素 都 是 为 分 布 式 环境 而 设计 的 ，Akka 提供 了 并 发 程序 的 高 级 别 抽象 ， 消 息 的 接收 和 
处 理 都 是 异步 、 非 阻塞 和 高 性 能 的 ， 并 且 内 部 通过 容错 机 制 来 保证 通信 的 可 靠 性 。 通 过 本 章 
的 后 面 内 容 会 发 现 ， 无 论 是 在 集群 资源 调度 过 程 中 的 客户 端 、Master 节点 以 及 Worker 市 点 
之 间 的 通信 ， 还 是 在 作业 调度 过 程 中 作业 、 阶 段 、 任 务 的 提交 与 执行 结果 反馈 ， 都 是 基于 
Akka 通信 框架 来 实现 的 。 


7.2 集群 资源 调度 


本 节 以 Standalone 集群 管理 器 为 例 ， 讲 解 Spark 如 何 分 配 集群 资源 给 一 个 或 者 多 个 应 用 
程序 ， 具 体 包 括 应 用 程序 如 何 向 集群 管理 器 申请 资源 、 集 群 管理 器 如 何 分 配 资 源 给 应 用 程 
序 ， 而 关于 应 用 程序 具体 如 何 使 用 集群 资源 ， 会 在 后 面 章节 中 讲述 。 

7.2.1 集群 部 署 图 
集群 的 部 署 图 示例 如 图 7-1 所 示 。 


Master Node Worker Node 3 


CoarseGrainedExe 
cutorBackend 
CoarseGrainedExe 
cutorBackend 


Worker Node 1 Worker Node 2 


CoarseGrained CoarseGrained CoarseGrainedExe 
ExecutorBackend ExecutorBackend cutorBackend 
CoarseGrainedExe 

cutorBackend 


图 7-1 一 种 可 能 的 集群 部 署 图 示例 


图 中 的 部 分 模块 在 本 章 前 面部 分 已 经 介绍 过 ， 此 处 重点 介绍 这 些 模块 在 集群 资源 调度 过 
程 中 所 起 到 的 作用 。 


(1) Master 节点 


将 应 


Master 节点 实际 上 是 对 Worker 节点 进行 


(2) Worker 节点 


j 程 序 交 付 执 行 ， 当 有 


Master 节点 有 两 个 用 途 : 一 是 应 用 程序 调度 ，Master 节点 接收 用 户 提 交 的 应 用 程序 ， 


并 


多 个 程序 提交 时 会 对 这 些 应 用 程序 执行 的 先后 顺序 进行 调度 
是 资源 调度 ， 由 于 集群 中 的 资源 实际 上 指 的 是 Worker 节点 上 的 计算 和 内 存 资 源 ， 
调度 ， 注 册 和 管理 集群 中 所 有 的 Worker 节点 。 


集群 上 的 计算 和 内 存 资源 实际 的 拥有 者 ， 受 Master 节点 统一 管理 
在 启动 之 后 都 会 向 Master 节点 注册 自身 ， 向 Master 汇报 自己 的 核心 总 数 和 内 存 总 量 ， 并 按 


照 Master 节点 的 指示 启动 内 部 的 Executor。 


维护 一 个 线程 ) 


(3) Executor 


集群 上 计算 任务 的 执行 者 。 


k= 


的 任务 必定 属于 同一 个 应 用 程序 。 


会 被 划分 成 阶段 ， 
作业 调度 完毕 之 后 ，Driver 程序 会 把 实际 的 并 行 计算 和 


(4) Driver 程序 


计算 任务 的 分 配 者 ， 在 本 章 后 面 的 内 容 中 会 看 到 ， 作 业 调 度 的 相关 了 
阶段 再 进一步 被 分 割 成 多 个 任务 等 等 工作 ， 都 是 在 Driver 程序 中 执行 的 。 
E 务 交付 给 Worker 节点 上 的 Executor 


去 执行 。 


7.2 


.2 


集群 资源 注册 


Master 进程 可 以 
来 启动 ，Worker 进程 则 可 以 通过 在 Worker 节点 上 的 Spark 安装 目录 下 ， 执 行 
“$SPARK_HOME/bin/spark-class org.apache.spark.deploy.worker. Worker” 来 启动 ，Master 进程 


对 应 源码 中 的 Master 类 ，Worker 进程 对 应 源码 中 的 Worker 类 。 


Worker 类 的 main 


进程 相关 的 一 些 配 置 


小 。 


CORES 的 值 ， 
“--cores” 或 者 “-c 


NS 


分 配 的 核心 数目 


! 体 实现 代码 如 下 。 


因此 


a 有。 每 一 个 Worker 节点 


一 个 Worker 节点 可 能 会 启动 多 个 Executor， 每 个 Executor 
， 线 程 池 中 的 每 个 线程 用 于 执行 一 个 任务 。 需 要 注意 每 个 Executor 内 部 执行 


[入 


[ 作 ， 包 括 作 业 任务 


通过 在 Master 节点 上 执行 “$SPARK_HOME/sbin/start-master.sh” 命 令 
人 人 
命令 


函数 会 实例 化 一 个 WorkerArguments 类 用 于 从 配置 文件 中 读 取 Worker 
填 ， 或 者 使 用 默认 值 ， 其 中 包括 分 配给 Worker 节点 的 核心 数 和 内 存 大 
耻 认 值 在 inferDefaultCores 方法 中 设置 ， 默 认 值 等 于 Worker 节点 上 所 有 
可 能 的 核心 数目 ， 如 果 在 Worker 节点 上 的 Spark 配置 文件 中 配置 了 SPARK_WORKER_ 


\ 证 


则 该 值 会 覆盖 inferDefaultMemory 方法 得 到 的 值 ， 如 果 在 运行 Worker 类 时 


”选项 设置 了 分 配 核心 的 个 数 ， 则 选项 设置 值 


又 会 


var cores = inferDefaultCores() 
if (System.getenv("SPARK_WORKER_ CORES") != nul) { 
cores = System.getenv("SPARK_WORKER_CORES").toInt 


} 


def parse(args: 


List[String]): Unit = args match { 


/ 仅 保 留 读 者 关心 的 代码 片段 


case ("--cores" | "-c") :: IntParam(value) :: tail => 


cores = value 


parse(tail) 


过 


履 盖 前 两 者 的 值 


>» 
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} 
def inferDefaultCores(): Int= { 
Runtime.getRuntime.availableProcessors() 


} 


与 核心 数目 类 似 ， 分 配 的 内 存 大 小 默认 值 在 inferDefaultMemory 方法 中 设置 ， 如 果 在 
Worker 节点 上 的 Spark 配置 文件 中 配置 了 SPARK_WORKER_MEMORY 的 值 ， 则 该 值 会 履 
盖 inferDefaultMemory 方法 得 到 的 值 ， 如 果 在 运行 Worker 类 时 通过 “--memory” 或 者 “-m” 
选项 设置 了 分 配 内 存 大 小 ， 则 选项 设置 值 又 会 覆盖 前 两 者 的 值 ， 具 体 实 现代 码 如 下 。 

var memory = inferDefault Memory() 
if (conf.getenv("SPARK_ WORKER MEMORY")!=nulD) { 

memory = Utils.memoryStringToMb(contf.getenv("SPARK_WORKER_MEMORY")) 
} 


' 


def parse(args: List[String]): Unit = args match { 
/ 仅 保 留 读 者 关心 的 代码 部 分 
case ("--memory" | "-m") :: MemoryParam(value) :: tail => 
memory = value 
parse(tail) 
} 
def inferDefault MemoryO: Int = { 
val ibmVendor = System.getProperty("java.vendor").contains("IBM") 
var totalMb =0 
try { 
val bean = ManagementFactory.getOperatingSystem MX Bean() 
if GQbmVendor) { 
val beanClass = Class.forName("com.ibm.lang.management.OperatingSystemMX Bean") 
val method = beanClass.getDeclaredMethod("getTotalPhysicalMemory") 
totalMb = (method.invoke(bean).asInstanceOf[Long] / 1024 / 1024).toInt 
} else { 
val beanClass = Class.forName("com.sun.management.OperatingSystemMXBean) 
val method = beanClass.getDeclaredMethod("getTotalPhysicalMemorySize") 
totalMb = (method.invoke(bean).asInstanceOf[Long] / 1024 / 1024).toInt 
} 
} catch { 
case e: Exception => { 
totalMb = 2*1024 
System.out.println("Failed to get total physical memory. Using " + totalMb + " MB 
} 
} 
/ 留 下 1 GB 给 操作 系统 ， 但 不 返回 一 个 负 的 内 存 大 小 
math.max(totalMb - 1024, 512) 
} 


接 下 来 ，Worker 进程 需要 向 Master 进程 注册 ， 汇 报 Worker 拥有 的 计算 与 内 存 资源 ， 实 
见 过 程 在 Worker 类 中 。 最 终 调用 Worker 类 的 tryRegisterAllMasters 方法 ， 通 过 Akka 通信 机 


制 向 Master 节点 发 送 注册 消息 RegisterWorker， 可 以 看 到 ，Worker 进程 向 Master 进程 发 送 


日 


的 信息 包括 Worker 节点 的 编号 《worker-date-host-port)、 主 机 地 址 、 用 户 分 配给 Worker 的 核 
心 数 、 内 存 大 小 等 ，tryRegisterAllMasters 方法 的 实现 代码 如 下 。 


~ 


private def tryRegisterAllMasters() { 
for (masterUrl <- masterUrls) { 
logInfo("Connecting to master " + masterUrl + "...") 
val actor = context.actorSelection(Master.toAkkaUrl(masterUID) 
actor ! RegisterWorker(workerld, host, port, cores, memory, webUi.boundPort, publicAddress) 


} 
} 


Master 节点 收 到 Worker 进程 发 送 的 过 来 的 注册 消息 后 ， 记 录 Worker 进程 的 信息 ， 存 储 
在 Workerinfo 对 象 中 ， 实 现代 码 如 下 。 沉 要 注意 的 是 ， 由 于 Worker 进程 注 册 之 前 ， 可 能 就 
已 经 有 Client 节点 发 送 应 用 程序 注册 请 求 到 Master 节点 ， 因 此 Master 进程 会 调用 schedule 
方法 来 分 配 集群 资源 ， 这 个 方法 在 下 一 节 中 再 做 讲解 。 


Override def receiveWithLogging = { 
1/ 仅 保留 读者 关心 的 代码 部 分 
case RegisterWorker(id, workerHost, workerPort cores, memory, workerUiPort, publicAddress) => 
{ 
logInfo("Registering worker %s:%d with %d cores, Ws RAM".format( 
workerHost, workerPort, cores, Utils.megabytesToString(memory))) 
if (state == RecoveryState.STANDBY) { 
/ 忽略， 不 发 送 响应 
} else if (idToWorker.contains(id)) { 
sender ! RegisterWorkerFailed("Duplicate worker ID") 
} else { 
val worker = new WorkerInfo(id, workerHost, workerPort, cores, memory, 
sender, workerUiPort, publicAddress) 
if (registerWorker(worker)) { 
persistenceEngine.addWorker(worker) 
sender ! Registered Worker(masterUr], masterWebUiUID) 
schedule() 


}else { 
val workerAddress = worker.actor.path.address 
logWarning(" Worker registration failed. Attempted to re-register worker at same " + 


yy 


"address: " + workerAddress) 
sender ! RegisterWorkerFailed("Attempted to re-register worker at same address: " 


+ workerAddress) 


7.2.3 ”集群 资源 申请 与 分 配 
在 集群 环境 下 ，Driver 程序 通过 实例 化 CoarseGrainedSchedulerBackend 类 来 实现 Driver 程序 
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与 集群 之 间 的 通信 ， 不 同 的 集群 模式 实例 化 不 同 的 CoarseGrainedSchedulerBackend 类 的 子 类 ， 对 
于 Standalone 集群 管理 器 使 用 的 是 SparkkDeploySchedulerBackend 类 ，SparkDeploySchedulerB 
ackend 类 启动 的 时 候 会 实例 化 一 个 AppClient 类 ，AppClient 会 向 Master 节点 发 送 应 用 注册 请 求 ， 
注册 请 求 中 会 包含 自己 需求 的 资源 情况 ， 其 中 应 用 程序 需要 的 核心 数 在 配置 参数 spark.cores.max 
中 配置 ， 内 存 需 求 量 则 在 配置 参数 spark.cores.memory 中 配置 。 注 册 过 程 的 代码 如 下 。 


ns! 


override def preStart() { 
context.system.eventStream.subscribe(self, classOf[RemotingLifecycleEvent]) 
try { 
registerWithMaster() 
} catch { 
case e: Exception => 
logWarning("Failed to connect to master", e) 
markDisconnected() 
context.stop(self) 
} 


} 
def tryRegisterAllMasters() { 
for (masterUr] <- masterUrls) { 
logInfo("Connecting to master " + masterUrl + "...") 
val actor = context.actorSelection(Master.toAkkaUrl(masterU?r])) 
actor ! RegisterApplication(appDescription) 


} 
} 
def registerWith Master() { 
tryRegisterAllIMasters() 
/ 仅 保留 读者 关心 的 代码 部 分 
} 
Master 节点 在 接收 到 应 用 程序 的 注册 请 求 之 后 ， 会 把 应 用 放 在 等 待 队 列 当中 ， 并 调用 我 
们 之 前 提 及 过 得 Master.scheduler 方法 ，Masterschedule 方法 对 应 的 是 Master 进程 的 驱动 程 
序 /应 用 程序 调度 逻辑 ， 首先 是 对 Driver 进程 的 调度 ， 在 YARN 集群 模式 下 ，Driver 程序 可 
以 运行 在 Worker 节点 上 ， 因 此 Master 节点 需要 专门 分 配 相 应 的 集群 资源 来 运行 Driver 进 
程 ， 采 用 的 方法 是 随机 把 Driver 分 配 到 空闲 的 Worker 之 上 ， 代 码 如 下 所 示 。 


private def ScheduleO { 
if (state != RecoveryState.ALIVE) { return } 
/ 先 调度 驱动 ， 驱 动 的 优先 级 大 于 应 用 
val shuffledAliveWorkers = Random.shuffle(workers.toSeq.filter(_.state == WorkerState. ALIVE)) 


val mumWorkersAlive = shuffledAliveWorkers.Ssize 


var curPos=0 
for (driver <- waitingDrivers.toList) { // iterate over a copy of waitingDrivers 
/ 这 里 以 轮 询 机 制 把 Worker 分 配给 每 一 个 等 待 中 的 驱动 ， 从 最 后 一 个 分 配给 驱动 的 Worker 
始 分 配 ， 直 到 把 所 有 激活 的 Worker 都 遍历 一 遍 


var launched = false 


var numWorkersVisited = 0 
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while (um WorkersVisited < numWorkersAlive && !launched) { 
val worker = shuffledAliveWorkers(curPos) 
numWorkersVisited += 1 
if (worker.memoryFree >= driver.desc.mem && worker.coresFree >= driver.desc.cores) { 
launchDriver(worker, driver) 
waitingDrivers -= driver 
launched = true 
} 
curPos = (curPos + 1) % numWorkersAlive 
} 
/ 仅 保留 读者 关心 的 代码 部 分 


} 


接 下 来 调度 具体 的 应 用 程序 ， 多 个 应 用 程序 之 间 采 用 FIFO 调度 方法 ， 先 注册 的 应 用 下 
序 会 优先 被 分 配 资源 。 单 个 应 用 程序 内 ， 则 采用 两 套 资源 调度 ， 分 别 是 SpreadOnut 调度 策略 
和 非 SpreadOnut 调度 策略 ， 可 以 通过 配置 参数 spark.deploy.spreadOut 进行 配置 。 无 论 是 哪 种 
策略 ，Master 进程 都 会 检查 所 有 Workers 剩余 的 内 存 大 小 是 否 能 够 满足 应 用 程序 的 最 低 需 
求 ， 并 且 应 用 程序 之 前 从 没 在 该 Worker 上 启动 过 Executor ( 换 句 话说， 在 一 个 Worker 中 ， 
一 个 应 用 程序 最 多 只 会 有 一 个 Executor 专门 来 为 其 服务 )， 满 足 的 话 ， 才 会 参与 调度 过 和 
判断 Workers 是 否 可 用 的 实现 代码 如 下 。 


HO 


HHD 


def canUse(app: ApplicationInfo, worker: WorkerInfo): Boolean = { 
worker.memoryFree >= app.desc.memoryPerSlave && !worker.hasExecutor(app) 


} 
对 于 SpreadOut 调度 策略 ，Master 节点 采用 轮 询 的 方式 ， 每 个 可 用 的 Worker 为 应 用 程 


序 贡 献 一 个 CPU 核心 ， 直 到 分 配 的 核心 能 够 满足 应 用 程序 的 需求 。SpreadOut 调度 的 实现 代 
人 码 如 下 。 


/ 尝试 把 应 用 分 配 到 所 有 节点 
for (app <- waitingApps if app.coresLeft > 0) { 
val usable Workers = workers.toArray .filter(_.state == WorkerState.ALIVE) 


.filter(canUse(app, _)).sortBy(_.coresFree).reverse 


val numUsable = usableWorkers.length 
val assigned = new Array[IntnumUsable) / -个 节点 分 配 的 核心 数 
var toAssign = math.min(app.coresLeft usable Workers.map(_.coresFree).sum) 
var pos=0 
while (toAssign > 0) { 
if (usableWorkers(pos).coresFree - assigned(pos) > 0) { 


toAssign -= 1 
asSigned(pos) += 1 

} 

pos = (pos + 1) % numUsable 


} 
/ 给 每 个 节点 分 配 核心 数 
for (ig <- 0 until numUsable) { 
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if (assigned(pos) > 0) { 
val exec = app.addExecutor(usable Workers(pos), assigned(pos)) 
launchExecutor(usableWorkers(pos), exec) 
app.state = ApplicationState. RUNNING 
} 
} 
} 


对 于 非 SpreadOut 调度 策略 ， 会 一 次 性 把 一 个 Worker 上 所 有 可 分 配 的 核心 全 部 分 配给 
应 用 程序 。 非 SpreadOut 调度 的 实现 代码 如 下 。 


/ 把 每 一 个 应 用 分 配 到 越 少 节点 越 好 ， 直 到 应 用 分 配 到 所 需 的 核心 数 
for (worker <- workers if worker.coresFree > 0 && worker.state == WorkerState. ALIVE) { 
for (app <- waitingApps if app.coresLeft > 0) { 


if (canUse(app, worker)) { 
val coresToUse = math.min(worker.coresFree, app.coresLeft) 
if (coresToUse > 0) { 
val exec = app.addExecutor(worker, coresToUse) 
launchExecutor(worker, exec) 
app.state = ApplicationState.RUNNING 
} 
} 
} 
} 


被 分 配 任 务 的 Worker 会 调用 addExecutor 函数 来 添加 相应 的 Executor， 并 调用 
launchExecutor 方法 来 实际 启动 Executor， 该 方法 会 记录 Worker 被 消耗 的 资源 ， 并 向 对 应 的 
Worker 发 后 消息 ， 通 知 其 启动 Executor。Worker 接收 到 该 消息 之 后 ， 会 记录 资源 消耗 量 ， 
并 启动 新 的 Executor 进程 。 

这 就 是 应 用 程序 资源 分 配 的 过 程 。 而 应 用 程序 内 部 ， 有 具体 将 任务 调度 给 Executor 的 过 
程 ，7.4 节 中 会 讲述 。 


7.3 DAG 调度 


在 前 面 ， 我 们 讲 过 DAG 调度 器 的 目的 就 是 把 一 个 作业 划分 成 不 同 阶段 ， 根 据 阶段 的 依 
赖 关 系 构建 一 张 DAG， 并 进入 到 阶段 内 部 ， 把 阶段 划分 成 可 以 做 并 行 计算 的 并 行 任务 ， 最 
终 把 一 个 阶段 内 的 所 有 任务 交付 给 任务 调度 器 ， 以 负责 后 面 的 调度 工作 。 本 章节 将 深入 到 源 
码 级 别 ， 研 究 一 个 作业 在 Spark 中 从 被 创建 到 最 终 执 行 完毕 的 完整 过 程 。 


7.3.1 DAG 调度 通信 机 制 


DAG 调度 过 程 对 应 DAGScheduler 类 ，DAGScheduler 类 在 SparkContext 类 中 被 实例 
化 ， 而 DAGScheduler 在 实例 化 过 程 中 ， 会 实例 化 一 个 REF 对 象 eventProcessActor， 用 于 发 
送 和 处 理 各 种 调度 事件 ， 例 如 提交 作业 ， 监 控 作 业 、 任 务 完成 情况 等 ， 对 应 的 消息 内 容 和 处 
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理 方法 在 DAGSchedulerEventProcessActor 类 的 receive 方法 中 定义 。 上 有 具体 实现 代码 如 下 。 


private[scheduler] class DAGSchedulerEventProcessActor(dagScheduler: DAGScheduler) 
extends Actor with Logging { 
/ 忽略 部 分 代码 
defreceive = { 
case JobSubmitted(jobId, rdd, func, partitions, allowLocal, callSite, listener, properties) => 
dagScheduler.handleJobSubmitted(jobld, rdd, func, partitions, allowLocal, callSite, 
listener, properties) 
// 忽略 部 分 代码 
} 
} 
private[spark] 
class DAGScheduler(...... ) 
extends Logging { 
/ 忽略 部 分 代码 
Private val dagSchedulerActorSupervisor = 


env.actorSystem.actorOf(Propsnew DAGSchedulerActorSupervisor(this))) 


private def initializeEventProcessActor() { 
/ 阻塞 线程 直到 supervisor 被 启动 ，supervisor 会 保证 eventProcessActor 在 任何 job 提交 之 前 


implicit val timeout = Timeout(30 seconds) 
val initEventActorReply = 
dagSchedulerActorSupervisor ? Props(new DAGSchedulerEventProcessActor(this)) 
eventProcessActor = Await.result(initEventActorReply, timeout.duration). 
asInstanceOf[ActorRef] 


} 


initializeEventProcessActor() 


7.3.2 ”作业 处 理 流程 


接 下 来 将 跟踪 Spark 中 一 个 常用 动作 操作 count 的 执行 流程 ， 从 而 理 清 DAG 调度 的 整 
个 过 程 。count 操作 的 对 应 实现 在 RDD 抽象 类 中 。count 方法 的 实现 代码 如 下 。 


TH 


def count(): Long = sc.runJob(this, Utils.getIteratorSize _).sum 


count 方法 调用 了 SparkContext 类 的 runJob 方法 ，runJob 方法 会 返回 一 个 包含 每 个 分 区 
内 部 数据 记录 个 数 的 整 型 数组 对 象 ， 因 此 之 后 只 需要 调用 该 数组 的 sum 方法 做 一 次 求 和 运 
算 ， 即 可 得 到 整个 RDD 内 数据 记录 的 个 数 。 

SparkContext 内 有 多 个 runJob 方法 的 实现 ， 这 些 方 法 最 终 都 会 调用 SparkContext 类 内 的 同 
一 个 runJob 方法 ， 将 当前 作业 提交 给 DAGScheduler 类 ， 这 个 runJob 方法 的 实现 代码 如 下 。 


def runJob[T, U: ClassTag]( 
rdd: RDDI[T], 
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func: (TaskContext, Iterator[T]) => U, 


partitions: Seq[ 


Int], 


allowLocal: Boolean, 
resultHandler: (nt U) => Unit) { 
if (dagScheduler == null) { 
throw new SparkException("SparkContext has been shutdown") 


} 


val callSite = getCallSite 

val cleanedFunc = clean(func) 
logInfo("Starting job: " + callSite.shortForm) 
dagScheduler.runJob(rdd, cleanedFunc, partitions, callSite, allowLocal, 


resultHandler, localProperties.get) 


progressBar.foreach(_.finishAll()) 
rdd.doCheckpoint() 


} 


SparkContext.runJob 方法 首先 获取 函数 的 调用 位 置 用 于 后 期 日 志 输 日 
函数 的 序列 化 处 理 ， 调 用 DAGSchedulerrunJob 方法 ， 交 付 作 业 


func 函数 的 函数 闭 包 以 方便 


上 和 调试 ， 而 后 清除 


给 DAG 调度 器 ， 显 示 作 业 运 行进 度 ， 并 在 作业 完成 之 后 ， 执 行 建 立 检查 点 操作 ， 顺 着 依赖 
链 ， 寻 找 之 前 被 标价 成 MarkForCheckpoint 的 RDD ， 


CheckpointingInProgress， 并 创建 一 个 作业 把 RDD 数据 写 入 到 指定 的 目录 中 ， 注 意 这 个 过 程 


将 该 检查 点 标记 成 


在 之 前 的 作业 已 经 完成 之 后 


才 会 执行 。 


函数 闭 包 本 被 理解 成 一 个 函数 ， 使 其 能 够 读 取 外 部 函数 的 内 部 变量 。 


传递 给 DAGScheduler.runJob 方法 的 参数 中 ， 有 两 个 需要 额外 注意 的 参数 : 第 一 个 是 
allowLocal 参数 ， 当 allowLocal 参数 赋值 为 tue 时 ，DAG 调度 器 会 将 一 些 比较 简单 的 任务 直 
接 放 在 本 地 运行 ;第 二 个 是 resultHandler，resultHandler 是 一 个 回调 函数 ， 典 
其 中 result 是 在 SparkContextrunJob 中 定义 的 一 个 数组 。 可 以 看 到 ， 
DAGSchedulerrunJob 方法 本 映 并 没有 返回 值 的 ， 当 一 个 分 区 数据 计算 外 
只 需要 调用 resultHandler(partitionId，result) 方 法 即 可 把 计算 结果 返回 


res)=>results[index]=res”， 


而 无 须 经 过 复杂 的 函数 返回 


操作 。 


EF 务 执行 完毕 之 后 ， 


定义 为 “ndex， 


给 SparkContext.runJob， 


接 下 来 便 从 SparkContext 类 转移 到 DAGScheduler 类 中 ，DAGSchedulerrunJob 方法 的 实 


现代 码 如 下 。 


defrunJob[T, U: Class 
rdd: RDDI[T], 


Tag]( 


func: (TaskContext, Iterator[T]) => U, 


partitions: Seqg[ 


Int], 


callSite: CallSite, 
allowLocal: Boolean, 
resultHandler: (Int, U) => Unit, 


properties: Properties = null) 


{ 


val start = System.nanoTime 
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val waiter = submitJob(rdd, func, partitions, callSite, allowLocal, resultHandler, properties) 
waiter.awaitResult() match { 
case JobSucceeded => { 
logInfo("Job %d finished: %s, took %f s".format 
(waiter.jobld, callSite.shortForm, (System.nanoTime - start) / le9)) 
} 
case JobFailed(exception: Exception) => 
logInfo("Job %d failed: %s, took %f s".format 
(waiter.jobld, callSite.shortForm, (System.nanoTime - start) / le9)) 
throw exception 


} 


runJob 函数 继续 调用 了 submitJob 方法 提交 一 个 作业 ，submityob 函数 会 返 加 


JobWaiter 类 的 示例 waiter，JobWaiter 类 主要 被 用 于 两 个 用 途 : 一 是 通过 eventProcess 


Actor 


对 象 发 送 一 个 JobCancelled 请 求 消 息 来 取消 一 个 作业 的 执行 ， 二 是 阻塞 DAGSchedulerrunJob 


的 完成 事件 ， 统 计 任 务 完 成 的 个 数 ， 在 每 个 任务 完成 之 后 调用 回调 函数 resultHandler 


所 在 进程 ， 并 等 待 提交 作业 执行 完毕 ， 实 现代 码 如 下 。JobWaiter 类 内 部 会 监听 每 一 个 任务 


来 执 


行 任务 得 到 结果 ， 当 作业 执行 完毕 或 者 执行 失败 后 ， 阻 塞 停止 ， 返 回 作 业 执 行 结果 给 


runJob 方法 。 


Override def taskSucceeded(index: Int result: Any): Unit = synchronized { 
1f (_jobFinished) { 


throw new UnsupportedOperationException("taskSucceeded() called on a finished Job Waiter") 


} 
resultHandler(index., result.asInstanceOf{T]) 
finishedTasks += 1 
if (finishedTasks == total Tasks) { 
_jobFinished = true 
jobResult = JobSucceeded 
this.notifyAlO 
} 
} 
override def jobFailed(exception: Exception): Unit = Synchronized { 
_jobFinished = true 
jobResult = JobFailed(exception) 
this.notifyAll() 
} 
def awaitResult(): JobResult = synchronized { 
while (!_jobFinished) { 
this.wait() 
} 
return jobResult 


} 


下 面 继续 研究 submitJob 方法 ， 其 实现 代码 如 下 。 程 序 首先 确保 RDD 分 区 的 编号 
法 范围 内 ， 并 给 当前 的 作业 分 配 个 编号 。 对 于 分 区 数目 为 0 的 RDD， 直 接 返 回 一 


在 合 
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JobWaiter 对 象 ， 这 个 JobWaiter 对 象 在 阻塞 一 开始 时 就 会 立即 返回 人 


E 务 执行 成 功 。 对 于 分 区 


数目 不 为 0 的 RDD， 则 新 建 一 个 JobWaiter 对 象 ， 通 过 eventProcessActor 对 象 发 送 一 个 作业 
提交 请 求 信号 JobSubmitted， 随 后 也 返回 一 个 JobWaiter 对 象 给 runJob 函数 。 


def submitJob[T, U]( 
rdd: RDDIT], 
func: (TaskContext, Iterator[T]) => U, 
partitions: Seg[Int], 
callSite: CallSite, 
allowLocal: Boolean, 
resultHandler: (Int, U) => Unit, 
properties: Properties = null): JobWaiter[U] = 


/ 通过 检查 来 保证 不 在 不 存在 的 分 区 上 建立 task 
val maxPartitions = rdd.partitions.length 


partitions.find(p => p >= maxPartitions || p < 0).foreach { p => 
throw new Illegal AreumentException( 


"Attempting to access a non-existent partition: "+p+"."+ 
"Total number of partitions: " + maxPartitions) 
} 
val jobld = nextJobld.getAndIncrement() 
if (partitions.size == 0) { 
return new JobWaiter[U](this, jobId, 0, resultHandler) 
} 


assert(partitions.size > 0) 
val func2 = func.asInstanceOf{ (TaskContext, Iterator[_]) => _] 


val waiter = new Job Waiter(this, jobld, partitions. size, resultHandler) 


eventProcessActor ! JobSubmitted( 


jobId, rdd, func2, partitions.toArray, allowLocal callSite, waiter, properties) 


waiter 


} 


正如 7.3.1 小 节 所 讲 的 ，JobSubmitted 信号 会 被 DAGSchedulerEventProcessActor 类 的 


receive 方法 接收 ， 并 调用 DAGSchedulerhaddleJobSubmitted 方法 来 处 理 该 信息 ， 该 方法 的 实 
现代 码 如 下 。 其 中 ， 参 数列 表 中 的 listener 参数 就 是 在 submitJob 函数 中 创建 的 JobWaiter 对 


象 。handleJobSubmitted 首先 做 的 第 一 件 事 即 调用 newStage 函数 对 作业 进行 阶段 划分 ， 得 
一 个 表示 末 阶 段 (Final Stage) 的 变量 finalStage，finalStage 内 不 仅 存储 末 阶 段 内 部 信息 ， 


可 能 保存 了 父 阶段 的 信息 ， 而 父 阶 段 又 会 保存 祖父 阶段 的 信息 ， 


保存 了 希望 得 到 的 DAG 的 信息 。 阶 段 划 分 的 过 程 相对 比较 复杂 ，7.3.3 小 节 会 单独 


newStage 内 部 如 何 实现 阶段 划分 。 


Private[Scheduler] def handleJobSubmitted(jobId: Int, 
finalRDD: RDD[ ], 
func: (TaskContext, Iterator[_]) => _， 
partitions: Array[Int], 
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大 


到 


还 


此 finalStage 实际 上 已 经 


解 


allowLocal: Boolean， 
callSite: CallSite, 
listener: JobListener, 
properties: Properties = null) 
{ 
var finalStage: Stage = null 
ty { 
/ 新 阶段 的 创建 过 程 可 能 会 抛 出 异常 ， 例 如 在 HadoopRDD 上 运行 job， 而 此 时 底层 HDFS 
的 文件 已 经 被 删除 
finalStage = newStage(finalRDD, partitions.size, None, jobld, callSite) 
} catch { 
} 
if (finalStage != null) { 
val job = new ActiveJob(jobld, finalStage, func, partitions, callSite, listener, properties) 
val shouldRunLocally = 
localExecutionEnabled && allowLocal && finalStage.parents.isEmpty 多 人 
partitions.length == 
if (shouldRunLocally) { 
/ 计算 每 一 个 没有 本 地 父 阶 段 的 短暂 动作 ， 如 first0 和 take0) 
listenerBus.post(SparkListenerJobStart(job.jobId, Seq.empty, properties)) 
runLocallyQob) 
}else { 
JobIdToActiveJob(joblId) = job 
activeJobs += job 
finalStage.resultOfJob = Some(ob) 
val stagelds = jobldToStagelds(jobld).toArray 
val stageInfos = stagelds.flatMap(id => stageldToStage.get(id).map(_.latestInfo)) 
listenerBus.post(SparkListenerJobStart(job.jobId, stageInfos, properties)) 
submitStage(finalStage) 
} 
} 
submitWaitingStages() 


} 


阶段 划分 完毕 之 后 ， 程 序 将 当前 作业 转变 成 活动 作业 ， 活 动作 业 与 普通 作业 最 大 的 不 同 
在 于 前 者 存储 了 阶段 划分 信息 《〈 即 存储 了 finalStage)。 而 后 对 于 一 些 比较 小 型 的 作业 ， 例 如 
仅仅 只 有 一 个 阶段 的 并 且 最 后 执行 action 或 者 first 动作 的 作业 ， 直 接 调 用 runLocally 方法 ， 
并 最 终 调用 runLocallyWithinThread 方法 ， 在 Driver 程序 所 在 的 节点 上 的 一 个 线程 内 直接 执 
行内 部 的 任务 ， 从 而 节省 集群 资源 调度 所 消耗 的 时 间 。 如 果 不 适 宜 在 本 地 运行 ， 就 会 调用 
DAGScheduler.submitStage 方法 将 未 阶段 提交 给 集群 运行 。 

在 submitStage 方法 中 ， 程 序 会 检查 传 入 阶段 是 否 有 父 阶段 尚未 执行 ， 如 果 有 ， 则 会 通 
过 调用 submitStage(parent) 优 先 执 行 父 阶段 ， 并 将 自己 放 入 到 waitingStages 队列 当中 ， 等 待 
后 期 被 取出 并 执行 ， 如 果 前 面 所 有 阶段 都 已 经 执行 完毕 ， 则 直接 调用 submitMissingTasks 方 
法 ， 执 行当 前 阶段 内 部 的 任务 。submitMissingTasks 方法 负责 将 一 个 阶段 划分 成 多 个 任务 并 
交付 集群 执行 ， 具 体 的 实现 会 在 第 7.4.2 小 节 中 详细 描述 。 
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7.3.3 ”阶段 划分 
阶段 划分 是 作业 调度 过 程 的 关键 所 在 ， 其 源码 实现 相对 较为 复杂 ， 因 此 用 一 小 节 单 独 讲 


解 。 在 进入 源码 之 前 先 探讨 下 Spark 是 如 何 划 分 阶段 的 。 


一 个 阶段 划分 的 例子 如 图 7-2 所 示 ， 用 虚线 框 表 示 一 个 阶段 ， 虚 线 框 内 所 有 的 RDD 都 
是 为 实现 该 阶段 而 需要 被 计算 的 数据 。 理 所 当然 的 ， 整 个 作业 最 后 一 个 RDD 的 所 有 分 区 数 


据 被 计算 


完毕 对 应 的 阶段 就 是 所 求 的 末 阶 段 。 沿 着 RDD 的 依赖 关系 往 前 进行 深度 优先 遍 


历 ， 若 到 一 个 Shuffle 依赖 ， 依 赖 的 每 一 个 父 RDD 所 有 分 区 数据 都 计算 完毕 可 以 分 别 对 应 一 


个 阶段 ， 


都 是 当前 阶段 的 父 阶段 ， 继 续 沿 着 父 RDD 往 前 遍历 ， 若 遇 到 一 个 窜 依 赖 ， 则 直 


接 往 前 遍历 ， 直 到 当前 RDD 的 所 有 的 依赖 关系 都 被 近 历 过 才 返 回 上 一 层 ， 通 过 这 个 过 程 ， 
最 后 会 得 到 一 张 DAG。DAG 的 最 终 阶 段 称 之 为 结果 阶段 (Result Stage)， 其 余 阶 段 则 被 称 


为 ShuffleMap 阶段 (ShuffleMap Stage)。 


根据 Shuffle 依赖 来 切断 RDD 计算 链 ， 从 而 划分 出 多 个 阶段 ， 这 样 做 的 理 


图 7-2 ”阶段 划分 


看 
小 
人 
世 
于 


也 有 所 解释 。 源 码 实现 上 上， 阶段 划分 的 过 程 主要 完成 了 3 件 事情 : 

(1) 阶段 的 确定 

如 图 7-2 所 示 ， 将 Shuffle 依赖 作为 两 个 阶段 的 分 割 点 ， 并 记录 两 者 之 间 的 阶段 依赖 关 
系 ， 这 部 分 功能 在 上 一 节 所 述 方法 newStage 中 实现 ， 代 码 如 下 。 
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Private def newStage( 
rdd: RDDI_], 
numTasks: Int, 
shuffleDep: Option[ShuffleDependency[_, _, _1], // TO-DO: 
jobId: Int, 
callSite: CallSite) 
: Stage = 


val parentStages = getParentStages(rdd, jobId) 

val id = nextStageld.getAndIncrement() 

val stage = new Stage(id, rdd, numTasks, shuffleDep, parentStages, jobld, callSite) 
stageldToStage(id) = stage 


updateJobldStageIldMaps(jobld, stage) 
Stage 


} 


可 以 看 到 ，newStage 函数 内 部 先 调用 getParentStage 方法 获取 得 到 父亲 阶段 ， 实 例 化 一 
个 Stage 对 象 ， 在 实例 化 的 过 程 中 记录 两 个 阶段 的 依赖 关系 。getParentStage 是 一 个 比较 复杂 


的 递归 过 程 ， 编 者 在 此 没有 对 其 进行 

阶段 的 父亲 阶段 ， 都 会 调用 newStage 函数 将 

getParentStage 得 到 的 实际 上 就 是 除了 当前 阶段 在 内 的 DAG 
(2) 阶段 的 登记 与 绑 定 


图 。 


展开 ， 读 者 只 需要 知道 在 每 层 递 归 的 最 后 ， 对 于 每 一 个 
其 封装 成 一 个 Stage 对 象 ， 换 名 话说， 


在 newStage 函数 内 部 ， 会 为 阶段 生成 一 个 唯一 标识 D， 并 将 该 DD 与 阶段 进行 绑 定 ， 


而 在 实例 化 Stage 对 象 的 时 候 ， 也 会 将 阶段 与 作 计 


(3) Shuffle 注册 


上 ID 进行 绑 定 。 


LH 


ShuffleMap 阶段 是 一 类 特殊 的 阶段 ， 
过 程 ， 因 此 需要 向 MapOutputTracker 汶 


L 


E 册 该 


Shuffle 过 程 。 


现 该 阶段 意味 着 后 面 将 会 发 生 
MapOutputTracker 被 


次 Shuffle 
于 记 


录 MapStatus， 也 就 是 Shuffle 过 程 中 map 端 输出 文件 的 位 置 和 大 小 ， 这 些 信息 会 被 用 


在 Shuffle 过 程 reduce 端 获取 map 


端的 数据 。 在 getParentStage 函数 


Shuffle 依赖 ， 调 度 器 会 以 深度 优先 搜索 的 方式 找到 
于 包括 自 
用 newStage 函数 创建 一 个 阶段 (程序 在 此 实现 递归 )，T 
的 registerShuffle 方法 注册 该 Shuffle 依赖 到 MapOutp 


用 


个 Shuffle 依赖 ， 都 会 将 其 与 对 应 的 ShuffleMap 阶段 进行 绑 定 ， 


在 此 不 做 过 多 


| 74 任务 调度 


至 此 ，DAG 调度 器 已 经 完成 了 阶段 划分 工作 ， 并 把 
来 将 深入 到 任务 调度 器 内 前 


7.4.1 任务 分 类 与 执行 


在 Spark 中 ，Task 进 
(ShuffleMap Task)， 顾 名 思 义 ， 结 果 伯 
ShuffleMap 任务 则 是 ShuffleMap 阶段 内 着 
任务 对 应 实现 是 : 
ShuffleMapTask 对 runTask 函数 的 实现 代码 如 下 。 


述 。 


override def runTask(context: TaskContexb: U = { 
/ 使 用 广播 变量 反 序 列 化 RDD 和 函数 


| 世 
val ser = SparkEnv.get.closureSerializer.newJInstanceO 


[后 再 调 / 


面 所 有 


h， 对 于 每 一 个 


的 Shuffle 依赖 ， 而 后 对 
身 在 内 的 Shuffle 依赖 ， 调 用 newOrUsedStage 消 数 。newOrUsedStage 函数 会 先 调 
MapOutputTracker 对 象 
utTracker 中 。 除 此 之 外 ， 对 于 每 


相关 


实现 比较 人 简 自 


F 务 集 交 付 给 了 作 


有 


E 务 调度 器 ， 接 下 


hp， 观 察 任 务 集 以 及 任务 的 调度 与 执行 过 程 。 


步 被 划分 为 结果 任务 (Result Task) 和 ShuffleMap 从 
FE 务 是 结果 阶段 内 部 被 调度 器 蕊 
被 调度 器 划分 得 到 的 任务 。 源 码 实现 中 ， 一 个 并 行 
| 象 类 Task，Task 类 要 求 子 类 实现 runTask 函数 ， 


| 分 


子 


E 务 


得 到 的 任务 ， 而 


类 ResultTask 和 


val (rdd, func) = ser.deserialize[(RDDI[T], (TaskContext, Iterator[T]) => U)]( 
ByteBuffer.wrap(taskBinary.value), Thread.currentThread.getContextClassLoader) 
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metrics = Some(context.taskMetrics) 
func(context, rdd.iterator(partition, context)) 
} 
Override def runTask(context: TaskContext): MapStatus = { 
/ 使 用 广播 变量 反 序列 化 RDD 
val ser = SparkEnv.get.closureSerializer.newInstance() 
val (rdd, dep) = ser.deserialize[(RDDI_], ShufftleDependency[_ ， ，])]( 


ByteBuffer.wrap(taskBinary.value), Thread.currentThread.getContextClassLoader) 


metrics = Some(context.taskMetrics) 
var writer: Shuffle Writer[ Any, Any] = null 
try { 
val manager = SparkEnv.get.shuffleManager 


writer = manager.getWriter[Any, Any](dep.shuffleHandle, partitionId, context) 


writer.write(rdd.iterator(partition, context).asInstanceOffIterator[_ <: Product2[Any, Any]]]) 


return writer.stop(success = true).get 
} catch { 
case e: Exception => 
try { 
1f (writer != null) { 
writer.stop(success = false) 
} 
} catch { 
case e: Exception => 
log.debug("Could not stop writer", e) 


} 


throw e 


} 


可 以 看 到 ， 无 论 如 何 ，ResultTask 和 ShuffleMapTask 类 都 会 调用 RDD 对 象 的 iterator 函 
数 来 获取 阶段 未 RDD 内 的 数据 ， 该 方法 已 经 在 第 6 章 中 提 及 过 。 对 于 结果 任务 ， 得 到 的 分 


相关 模块 去 处 理 ， 相 关 过 程 会 在 下 一 章节 中 讲述 。 
7.4.2 ”任务 划分 与 提交 


区 数据 会 被 传 给 函数 func 处 理 ， 而 对 于 ShuffleMap 任务 ， 得 到 分 区 数据 则 是 交付 给 Shuffle 


在 第 7.3 节 研 究 了 一 个 作业 转变 到 多 个 阶段 的 调度 过 程 ， 本 节 继 续 讨论 如 何 将 阶段 进 一 


步 细 分 成 并 行 任务 并 交付 给 任务 调度 器 进行 调度 。 


阶段 到 任务 转换 的 过 程 ， 在 之 前 提 及 的 DAGScheduler.submitMissingTasks 方法 中 实现 ， 


其 代码 如 下 。 


private def submitMissingTasks(stage: Stage, jobId: Int) { 
logDebug("submitMissingTasks(" + stage + ")") 
/ 获得 待 处 理 的 task， 同 时 在 pending Tasks 中 的 entry 中 保存 task 信和 ， 
stage.pendingTasks.clear() 
/ 找到 分 区 id 的 索引 来 计算 
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亚 


Em 


val partitionsToCompute: Seq[Int] = { 


if (stage.isS 


huffleMap) { 


(0 until stage.numPatrtitions).filter(id => stage.outputLocs(id) == Nil) 


} else{ 
val job = 


stage.resultOfJob. get 


(0 until job.numPartitions).filter(id => !job.finished(id)) 


} 
} 


submitMissingTasks 方法 首先 确定 任务 的 个 数 ， 无 论 是 结果 阶段 还 是 ShuffleMap 阶段 ， 
生成 的 任务 个 数 总 与 阶段 末 RDD 分 区 的 个 数 相同 ， 考 虑 到 存在 部 分 任务 运行 失败 ， 或 者 任 
务 的 部 分 结果 丢失 的 情况 ， 因 此 最 终 任 务 的 个 数 等 于 末 RDD 中 分 区 的 个 数 减 去 其 中 已 经 被 
计算 过 的 分 区 的 个 数 。 
submitMissingTasks 会 将 阶段 的 末 RDD 序列 化 ， 而 后 封装 成 广播 变量 ， 供 之 后 的 每 个 任 


务 使 月 


昌 ， 从 而 保证 不 同 铂 


| 


E 务 之 间 相 互 扳 立 ， 代 码 如 下 。 


Var taskBinary: 
ty { 


Broadcast[Array[Byte]] = null 


/ 对 于 ShuffleMapTask， 序 列 化 并 旦 广播 rdd 和 shuffleDep) 
1/ 对 于 ResultTask， 序 列 化 并 且 广 播 rdd 和 func 
val taskBinaryBytes: Array[Byte] = 
if (stage.isShuffleMap) { 
closureSerializer.serialize((stage.rdd, stage.shuffleDep.get) : AnyRef).array() 


closureSerializer. serialize((stage.rdd, stage.resultOfJob.get.func) : AnyRef).array() 


taskBinary = sc.broadcast(taskBinaryBytes) 


} else{ 
} 
} catch { 


抛 去 中 间 的 部 分 细节 ， 直 接 跳 到 任务 被 创建 的 部 分 ， 代 码 如 下 。 


val tasks: Seq[Task[_]] =if (stage.isShuffleMap) { 
partitionsToCompute.map { id => 


val locs = getPreferredLocs(stage.rdd, id) 
val part = stage.rdd.partitions(id) 
new ShuffleMapTask(stage.id, taskBinary, part, locs) 


} 
} else { 


val job = stage.resultOfJob.get 


partitionsToCompute.map { id => 


val p: Int 


= job.partitions(id) 


val part = stage.rdd.partitions(p) 


val locs = getPreferredLocs(stage.rdd, p) 


new ResultTask(stage.id, taskBinary, part, locs, id) 
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taskScheduler.submitTasks( 
new TaskSet(tasks.toArray, stage.id, stage.newAttemptId(), stage.jobld, properties)) 


可 以 看 到 ， 根 据 阶段 类 型 的 不 同 ， 并 且 考 虑 到 任务 的 执行 位 置 要 尽 可 能 跟 数据 处 于 同一 
节点 ， 最 终 会 生成 一 系列 的 结果 任务 或 者 ShuffleMap 任务 。 同 一 阶段 的 所 有 的 任务 会 被 封装 


成 一 个 任务 集 (Task Set)， 并 i 


周 用 TaskScheduler 类 的 submitTasks 也 数 将 任务 集 提 交 给 了 


TaskScheduler 去 调度 和 执行 ， 至 此 ， 我 们 开始 从 DAG 调度 器 转换 到 任务 调度 器 。 


7.4.3 ”任务 调度 算法 


Spark 中 对 于 任务 的 调度 有 两 套 不 同 的 算法 。 第 一 套 算法 应 用 于 任务 集 之 间 的 调度 ， 以 


决定 到 底 应 该 优先 将 哪个 外 
单位 是 任务 集 ， 任 务 集 内 


E 务 集中 的 任务 分 配给 集群 中 的 工作 节点 ， 在 这 种 情况 下 ， 调 度 的 
的 任务 被 一 视 同仁 ， 第 二 套 算 法 应 用 于 任务 集 内 部 任务 的 调度 ， 在 


给 定 集群 工作 节点 资源 的 前 提 下 ， 根 据 资源 位 置信 息 和 任务 集中 任务 的 首选 位 置信 息 ， 确 定 


任务 被 分 配 到 哪 一 个 工作 节点 的 执行 器 上 。 下 面 对 两 套 算法 进行 介绍 。 


任务 集 之 间 的 调度 是 通过 调度 池 来 维护 ，Spark 实现 了 两 类 调度 算法 ， 分 别 是 FIFO 调 


度 和 公平 调度 算法 。FIFO 调度 十 分 容易 理解 ， 即 先 提交 给 调度 器 的 任务 集 (根据 阶段 ID 判 
断 ) 优先 被 执行 ， 这 就 导致 一 个 问题 : 某 些 任务 集运 算 量 比较 大 ， 会 长 时 间 占 据 系 统 资 源 ， 


从 而 导致 后 面 的 任务 集 不 能 被 及 时 运算 ， 因 此 Apache Spark 引入 了 公平 调度 算法 ， 在 该 算法 
E 务 调度 树 ， 树 的 叶子 节点 都 是 TaskSetManager 对 象 ， 可 以 简单 等 


下 ， 程 序 会 自动 构建 一 棵 人 


价 理解 成 一 个 任务 集 ， 


其 余 都 是 Pool 对 象 ，Pool 的 子 节点 既 可 以 是 Pool， 也 可 以 是 身 为 叶 


子 节点 的 TaskSetManager， 公 平 调度 的 基本 原则 是 根据 Pool/TaskSetManager 节点 下 面 运 行 任 
务 的 数目 来 决定 优先 级 ， 用 户 可 以 设置 Pool 的 最 小 任务 数 、 任 务 权 重 来 调整 Pool 中 任务 的 


优先 级 。 在 这 种 模式 下 ， 每 个 伯 


E 务 可 以 得 到 粗略 相同 的 集群 资源 。 两 种 调度 算法 的 相关 实现 


可 分 别 参 考 FIFOSchedulingAlgorithm 类 和 FairSchedulingAlgorithm 类 ， 限 于 篇 幅 在 此 不 做 过 


多 介绍 。 


任务 集 内 部 任务 的 调度 采 | 


的 是 基于 位 置信 息 的 延迟 调度 (Delay Scheduling) 算法 ， 该 
算法 的 实现 在 TaskSetManager 类 中 。 延 迟 调度 算法 用 来 决定 在 给 定 一 个 集群 资源 的 情况 下 ， 


如 何 挑选 一 个 合适 的 任务 ， 使 得 给 定 资 源 能 够 满足 任务 的 首选 资源 要 求 ， 并 且 尽 量 保证 任务 
是 在 本 地 执行 。 算 法 设置 了 一 个 位 置 级 别 变量 allowedLocality， 表 示 任 务 集中 所 有 任务 最 大 
能 够 接受 的 位 置 级 别 ， 可 选择 值 定义 在 TaskLocality 类 中 ， 从 最 低级 别 到 最 高 级 别 分 别 是 ; 
PROCESS_LOCAL、NODE_ LOCAL、NO_PREF、RACK LOCAL、ANY， 限 制 逐 渐 宽 松 。 


延迟 调度 算法 通 


过 动态 调整 allowedLocality 的 值 来 适应 变化 的 集群 资源 ， 


TaskSetManager 设置 allowedLocality 初始 值 为 PROCESS_LOCAL， 即 要 求 将 任务 运行 在 本 
地 同一 执行 器 中 。 如 果菜 节点 上 的 执行 器 TaskSetManager 的 resourceOffer 接口 被 调用 以 询问 
是 否 有 合适 的 可 以 运行 的 任务 ， 
是 否 超 过 了 用 户 指定 的 闵 值 ， 该 闵 值 通过 spark.locality.wait.x 参数 配置 ，x 值 可 以 为 空 、 


process、node 以 及 rack， 


TaskSetManager 会 先 判断 距离 上 一 次 成 功 分 配 任务 的 时 间 差 


体 可 参考 官方 配置 文档 。 若 超过 ， 则 将 allowedLocality 往 上 升 一 


级 ， 即 放宽 限制 ， 如 果 没 有 超过 或 者 第 一 次 询问 ， 则 保持 allowedLocality 不 变 。 接 下 来 一 一 
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遍历 TaskSetManager 维护 的 任务 集中 尚未 被 执行 的 任务 ， 检 查 有 没有 满足 alowedLocality 的 


任务 -执行 器 ， 满 足 的 意思 是 3 
如 果 最 终 找 到 一 个 满足 alowedLocality 并 


节点 与 执行 器 的 位 置 关 系 不 能 超出 allowedLocality 的 限制 。 
与 执行 器 最 为 “接近 ”的 任务 ， 


则 将 


allowedLocality 收 紧 到 任务 -执行 器 对 应 的 位 置 限制 ， 否 则 继续 放宽 allowedLocality。 


7.4.4 ”任务 调度 相关 类 


绍 如 下 的 这 儿 个 类 。 


1. TaskScheduler 类 和 TasksShedulerImpl 


TaskScheduler 本 身 是 Trait 类 ， 
TaskSchedulerImpl 类 主要 负责 三 项 工作 : 
DAGScheduler 提交 的 任务 集 ， 不 同 阶 段 的 任务 集 构造 成 一 棵 1 
是 决定 某 个 任务 具体 应 该 分 配给 集群 中 的 哪 一 个 Worker 节点 ， 三 是 TaskSchedulerImpl 类 内 
上 是 其 子 类 ) 的 实例 ， 在 submitTasks 方法 中 将 会 调 
， 将 任务 交付 给 具体 的 Executor 去 执行 。 


部 包含 一 个 SchedulerBackend 类 (实际 j 
] SchedulerBackend 实例 提供 的 接 


2. 调度 树 相 关 类 


第 一 个 调度 树 相 关 类 是 Schedulable 类 ， 该 类 被 月 
节点 。 每 一 个 实例 内 部 都 会 包含 节点 名 、 孩 子 节 点 列表 、 选 择 的 调度 算法 ， 节 点 优先 级 等 属 
FP 添 加 和 删除 孩子 节点 、 获 得 根据 调度 算法 已 经 排 好 
序 的 子 节点 列表 等 方法 。Shedulable 类 是 Trait 类 ， 其 有 两 个 子 类 实现 ， 分 别 是 Pool 类 和 


性 值 ， 以 及 提供 方法 用 于 在 子 节 点 列表 


任务 的 提交 与 分 配 过 程 涉及 到 几 个 比较 重要 和 复杂 的 类 ， 在 了 解 调度 的 细节 之 前 ， 先 介 


TaskSchedulerImpl 类 是 TaskScheduler 类 的 子 类 。 
一 是 在 submitTasks 方法 中 ， 


接收 来 上 自 


周 度 树 (Schedulable Tree); 二 


昌 于 表示 任务 集 调 度 树 上 的 每 一 个 调度 


Po 


TaskSetManager 类 ，Pool 类 并 不 存储 具体 的 任务 集 ， 其 在 调度 树 中 用 于 表示 TaskSetManager 
和 Pool 对 象 的 集合 ， 而 TaskSetManager 则 包含 具体 的 任务 集 ， 除 了 参与 调度 过 程 之 外 ， 
TaskSetManager 内 部 还 能 监控 每 个 正在 运行 中 的 任务 ， 对 执行 失败 的 任务 执行 重 试 操作 等 。 


第 二 个 调度 树 相 关 


类 


SchedulableBuilder 类 辣 检 


是 SchedulableBuilder 类 ， 该 类 被 


] 于 构建 和 维护 一 棵 调度 树 。 


FIFOSchedulableBuilder 类 和 FairSchdulableBuilder 类 ， 


3. 调度 后 台 类 


是 Trait 类 ， 根 据 选择 调度 算法 的 不 同 ， 有 两 种 实现 ， 分 别 对 应 


SchedulerBackend 类 之 前 已 经 在 7.2 小 节 接 触 过 ， 该 类 的 实例 为 TaskSchedulerImpl 对 象 


提供 集群 中 执行 器 的 相关 信息 ， 使 得 TaskSchedulerImpl 外 


bE 够 根据 执行 器 的 位 置信 息 进行 任务 


调度 。SchedulerBackend 类 根据 Spark 是 以 集群 还 是 本 地 方式 运行 ， 以 及 集群 管理 器 的 类 型 


的 不 同 ， 有 着 不 同 的 实现 ， 这 里 主要 关注 集群 调度 中 的 CoarseGrainedClusterBackend 类 。 


7.4.5 ”任务 分 配 


接 下 来 具体 讨论 任务 调度 的 过 程 


码 如 下 。 


Override def submitTasks(taskSet: TaskSet) { 
val tasks = taskSet.tasks 
logInfo("Adding task Set " + taskSet.id + " with " + tasks.length + " tasks") 


this.synchronized { 


其 实现 在 TaskSchedulerImpl.submitTasks 方法 中 ， 代 
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val manager = new TaskSetManager(this, taskSet maxTaskFailures) 
activeTaskSets(taskSet.id) = manager 
schedulableBuilder.addTaskSetManager(manager, manager.taskSet.properties) 
if (lisLocal && lhasReceivedTask) { 
starvationTimer.scheduleAtFixedRatenew TimerTask() { 
override def run() { 
if (lhasLaunchedTask) { 
logWarning("Initial job has not accepted any resources; "+ 
"check your cluster UI to ensure that workers are registered " + 
"and have sufficient memory") 
}else { 
this.cancel() 
} 
} 
}, STARVATION_TIMEOUT, STARVATION_TIMEOUT) 
} 
hasReceivedTask = true 
} 
backend.reviveOffers() 
} 


submitTasks 方法 先 提 取出 任务 集 ， 将 任务 集 封 装 到 TaskSetManager 类 中 ， 以 实现 任务 
集 的 管理 以 及 任务 集 内 部 的 调度 。 紧 接着 ，SchedulableBuilder 将 TaskSetManager 对 象 添加 
到 调度 树 中 使 其 成 为 一 个 叶子 节点 ， 以 实现 任务 集 之 间 的 调度 ， 跳 过 一 些 中 间 过 程 ， 在 最 
后 ，submitTasks 调用 了 CoarseGrainedClusterBackend 类 提供 的 reviveOffers 方法 ， 开 始 向 但 
群 中 的 执行 器 分 派 任务 。 

CoarseGrainedClusterBackend 类 的 reviveOffers 方法 会 向 DriverActor 发 送 一 条 ReviveOffers 
消息 ， 从 而 调用 CoarseGrainedClusterBackend 类 的 launchTask 方法 来 启动 任务 ， 其 实现 代码 
如 下 。 


洪 


def makeOffers() { 
launchTasks(scheduler.resourceOffers(executorDataMap.map { case (id, executorData) => 
new WorkerOffer(id, executorData.executorHost, executorData.freeCores) 
}.toSeq)) 
} 


代码 中 的 scheduler 即 为 上 文 所 说 的 TaskSchedulerImpl 对 象 ， 在 启动 任务 集 之 前 ， 程 序 
先 要 向 TaskSchedulerImpl 的 resourceOffers 方法 传递 所 有 的 执行 器 的 相关 信息 ， 从 而 得 到 调 
度 后 的 任务 描述 TaskDescription 的 集合 ，TaskDescription 内 包含 任务 的 编号 和 对 应 执行 器 的 
编号 等 信息 。 

resourceOffers 函数 会 对 所 有 的 机 架 、 主 机 、 执 行 器 以 及 其 相互 之 间 的 对 应 关系 进行 登 
记 ， 为 了 防止 任务 总 是 被 分 配 在 一 个 节点 ， 程 序 会 打 散 所 有 的 执行 器 ， 随 机 重 排 ， 并 统计 可 
的 CPU 核心 数目 。 在 为 执行 器 分 配 任务 前 ， 会 从 调度 树 的 根 节 点 中 得 到 调度 完毕 的 任务 
昧 序列 ， 接 下 来 便 是 多 重 循 环 ， 最 外 层 循环 是 所 有 任务 集 和 所 有 人 允许 的 最 大 位 置 资 源 限制 ， 


ny 
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第 二 层 循环 是 所 有 可 用 执行 器 ， 最 里 层 循环 是 当前 任务 集 内 部 ， 所 有 满足 位 置 资 源 的 任务 
集 ， 循 环 的 细节 可 参看 TaskSchedulerImpl.resourceOffer 类 的 实现 ， 在 此 不 进行 细 述 。 

resourceOffers 会 把 所 有 已 经 分 配 好 执行 器 的 任务 返回 给 CoarseGrainedClusterBackend， 
CoarseGrainedClusterBackend 调用 launchTasks 方法 运行 任务 ，launchTasks 方法 将 任务 内 容 序 
列 化 ， 确 保 序列 化 后 的 大 小 小 于 某 个 限制 ， 最 后 向 特定 的 执行 器 发 送 任务 。 任 务 的 分 配 工作 
到 此 完成 。 


7.4.6 “任务 接收 与 执行 


每 个 执行 器 都 会 实例 化 一 个 CoarseGrainedExecutorBackend 对 象 ，CoarseGrainedExecutor 
Backend 收 到 驱动 程序 发 送 过 来 的 任务 之 后 ， 会 调用 Executor 类 的 lauchTask 方法 来 运行 任 
务 ， 该 方法 的 代码 如 下 。 


def launchTask( 
context: ExecutorBackend, taskId: Long, taskName: String, serializedTask: ByteBuffer) { 
val tr = new TaskRunner(context taskId, taskName, serializedTask) 
runningTasks.put(taskld, tr) 
threadPool.execute(tr) 


} 


lauchTask 函数 将 任务 内 容 其 封装 成 TaskRunner 对 象 ， 并 分 配 一 个 线程 专门 执行 任务 ， 
线程 最 终 会 调用 TaskRunner 对 象 的 run 方法 。run 函数 反 序列 化 得 到 任务 类 Task， 并 调用 
Task 对 象 的 run 函数 得 到 执行 结果 ， 在 此 需要 注意 ， 对 于 ResultTask， 任 务 执行 的 结果 是 动 
作 操 作 中 制定 的 函数 应 用 在 分 区 数据 上 的 结果 ， 而 对 于 ShuffleMapTask， 返 回 的 是 
MapStatus， 包 含 任务 所 在 的 BlockManager 编号 以 及 map 端 输出 文件 的 大 小 。 运 行 结果 被 封 
装 成 DirectResult， 如 果 结 果 比 较 小 ， 直 接 发 送 给 驱动 程序 ， 否 则 写 入 到 内 存 或 者 磁盘 中 。 


7.5 本章 小 结 


调度 机 制 是 Spark 应 用 程序 得 意 运 行 的 关键 核心 ，Spark 内 部 包含 多 套 调度 机 制 ， 用 于 
在 集群 计算 中 从 资源 、 应 用 、 作 业 、 任 务 集 最 后 再 到 任务 的 调度 ， 本 章 从 机 制 与 源码 两 个 角 
度 ， 逐 层 分 析 调 度 过 程 中 涉及 的 多 个 子 模块 ， 辅 助 读者 理解 Spark 应 用 程序 的 运行 过 程 ， 以 
及 对 应 用 程序 进行 优化 的 方法 。 
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定 了 解 ， 包 括 任务 的 切 分 和 


据 等 。 
望 实 现 


带 


Shuffle 


年 短 


章 


在 前 面 Spark 调度 机 制 章节 的 介 


A 


依赖 的 计算 链 


运行 


中 分 区 数据 (或 者 说 是 任务 ) 


， 调 用 iterator 和 compute 方法 
而 对 于 相 邻 阶段 之 间 的 数据 传输 ， 本 书 曾 在 6.3 节 依 赖 关 系 9 


Shuffle 过 程 


中 ， 想 必 读 者 对 同一 个 阶段 内 部 数据 的 流动 过 程 有 
自 后 向 前 获取 和 计算 分 区 数 
P 有 过 简单 提 及 : 如 果 希 
于 Shuffle 依赖 


的 并 行 计算 ， 壬 


父 RDD 的 同一 个 分 区 数据 会 被 子 RDD 的 所 有 分 区 重复 使 


计算 父 RDD 


的 一 个 分 区 数据 完毕 之 后 ，Spark 会 


子 RDD 的 分 


区 使 用 。 


依赖 中 父 RDD 所 


数据 计算 完毕 到 数 ] 


区 计算 的 过 程 中 ， 
Spark 


如 ，Shuffle 过 程 品 
mapper。 对 应 的 ， 接 收 数据 的 一 端 称 作 
reducer。Shuffle 过 程 本 质 上 是 将 map 
对 应 的 reducer 的 过 程 。 


符合 子 阶 


有 分 


刀 


ra 


地 舍 信 


凯 被 写 入 到 磁盘 的 过 程 ， 
把 所 需 的 数据 从 父 RDD 拉 取 过 来 的 过 程 ， 称 为 Shuffle 读 过 程 。 
的 Shuffle 过 程 与 Hadoop 的 Shuffle 过 程 有 着 诸多 类 似 ， 一 些 概念 可 直接 套用 ， 例 
FP， 提供 数据 的 一 端 称 为 map 端 ，map 端 每 个 生成 数据 的 
reduce 端 ，reduce 端 每 个 拉 取 数据 的 任务 称 为 
的 数据 使 用 分 区 器 进行 划分 ， 并 将 数据 发 送 给 


分 


区 数 ] 


据 


阶段 执行 完毕 后 子 阶段 才 开始 执行 这 一 特性 ， 
区 的 数据 被 计算 和 存储 完毕 之 后 ， 子 RDD 才 会 了 
据 。 这 里 将 整个 数据 传输 的 过 程 称 为 Spark 的 Shuffle 过 程 。 


只 


| 


和 俐 时 存储 在 文件 系统 


， 提 供给 


有 当 Shuffle 


AAA 


开始 拉 取 需要 的 分 区 数 


在 Shuffle 过 程 中 ， 


称 为 Shuffle 写 过 程 。 
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端 获 得 


8.1 与 Hado0p Shuille 过 程 的 区 别 


Spark 和 Hadoop 不 是 同一 套 计算 框架 ， 所 以 在 Shuffle 过 程 实 
MR 模型 的 Shuffle 过 程 ， 再 进 


同 。 这 里 先 介 2 


经 


曲 


> 


8.1.1 ”MR 模型 的 Shuffle 过 程 


MR 模型 如 图 


当 内 存 缓冲 


口 


AS 


文件 中 数据 同 相 


Ro 


任务 完成 之 前 ，Hadoop 会 采 ) 


和 是 有 序 的 。 


8-1 所 示 ， 每 个 mapper 允 
区 数据 达到 一 定 闵 值 时 ， 将 缓冲 区 中 的 数据 进行 分 
区 内 部 的 数据 按照 键 值 进行 排序 (Sort)。 如 果 玫 
果 ， 还 会 执行 一 次 合并 (Combine ) 操作 ， 最 后 的 结果 会 被 溢 存 〈Spill) 到 磁盘 文件 中 。 
多 路 归并 算法 来 归并 〈Merge) 这 几 个 内 部 有 序 的 溢 存 文件 ， 


任 护 


个 环形 内 存 缓冲 区 ，| 


于 存储 人生 


be 


对 应 的 ， 在 子 RDD 某 


个 分 区 


个 分 


任务 称 为 


现 的 细节 上 有 着 诸多 不 
步 了 解 其 与 Spark 的 区 别 。 


FE 务 输出 ， 


区 (Partition )， 对 于 同一 个 分 
F 发 者 指定 了 Combiner， 那 么 对 于 排序 后 的 


在 


reducer 需要 从 map 端 拉 取 数据 。 当 一 个 mapper 运行 结束 之 后 ， 会 通知 JobTracker， 


reducer 定期 从 JobTracker 获取 相关 
，teducer 会 合并 来 自 不 同 map 端 


J 
完毕 后 


守 息 


中 


然后 从 mapper 端 


获取 数据 ， 所 有 需要 的 数据 复制 
拉 取 过 来 的 数据 ， 并 将 最 后 排序 好 的 数据 送 往 


o 


reduce 方法 处 理 
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图 8-1 Hadoop MR 机 制 中 的 Shuffle 过 程 


8.1.2 ”聚合 堪 


Hadoop 和 Spark 的 Shuffle 机 制 中 ， 重 要 的 区 别 是 数据 的 聚合 和 聚合 数据 的 计算 。 对 于 
Hadoop， 聚 合 是 通过 对 同一 分 区 内 的 数据 按照 键 值 排序 ， 键 值 相同 的 数据 会 彼此 相 邻 ， 从 而 
达到 聚合 的 目的 ， 而 聚合 后 的 数据 会 被 交 给 combine (map 端 ) 和 reduce (reduce 端 ) 函数 
去 处 理 。 对 于 Spark， 聚 合 以 及 数据 计算 的 过 程 ， 是 交付 给 聚合 器 Aggregator) 处 理 的 。 实 
例 化 一 个 聚合 器 的 时 候 ， 需 要 提供 3 个 函数 ， 分 别 是 : createCombiner: V => C，mergeValue: 
(C,V) => C 以 及 mergeCombiners: (C, C) => C。 

下 面 将 以 单词 统计 程序 中 的 reduceByKey(_+_) 转换 操作 为 例 ， 介 绍 这 3 个 函数 究竟 是 
如 何 实现 数据 的 聚合 和 计算 的 。 

Spark 会 使 用 哈 希 表 来 存储 所 有 聚合 数据 的 处 理 结果 ， 如 图 8-2 所 示 ， 图 中 的 浅 色 空 模 
用 于 存储 键 值 ， 右 侧 相 邻 深 色 衬 槽 表示 该 键 值 对 应 的 计算 值 。 聚 合 器 开始 处 理 聚 合 数据 之 
前 ， 哈 希 表 是 空 的 。 


key computedValue 


HashMap 


图 8-2 ”未 插入 任何 数据 的 哈 希 表 


假设 需要 聚合 的 数据 是 <"A"， 1>、<"B"，1>、<"A"， 1 >， 需 要 注意 ， 这 时 候 数 据 是 无 序 
的 。 对 于 第 一 个 数据 <"A"，1>，Spark 会 通过 散 列 函数 计算 键 值 “A” 对 应 的 哈 希 表 地 址 ， 假 
设 此 时 得 到 的 哈 希 值 为 1， 因 此 在 哈 希 表 中 ， 地 址 为 2 的 空 槽 用 于 存放 键 值 “A” 地 址 为 3 
的 空 槽 用 于 存放 计算 后 的 值 。 由 于 地 址 为 2 和 地 址 为 3 的 模 均 为 空 槽 ， 这 时 候 会 调用 
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createCombiner(kv._2) 函 数 来 计算 初始 值 。 对 于 reduceByKey 转换 操作 ，createCombiner 实际 
为 (v: V) => v， 因 此 得 到 计算 值 为 1， 将 “A” 放 入 到 地 址 为 2 的 空 槽 中 ， 将 1 放 入 到 地 址 为 
3 的 插 模 中， 如 图 8-3 左 侧 所 示 。 同 理 ， 对 于 数据 <"B"，1l>， 可 以 放 入 到 另外 两 个 空 模 中 ， 
如 图 8-3 右 侧 所 示 。 


<"B" 1> 


createCombiner 


HashMap HashMap 
图 8-3 分别 插入 不 同 键 值 后 的 哈 希 表 
第 三 个 数据 是 <"A",1>， 计 算得 到 地 址 为 1， 此 时 因为 地 址 为 2 和 地 址 为 3 的 插 覃 已 经 


有 值 oldValue， 这 时 候 调 用 mergeValue(oldValue，kv._2) 来 计算 新 的 值 。 对 于 reduceByKey 转 
换 操 作 ，mergeValue 实际 上 为 用 户 在 调用 reduceBykey 时 候 指 定 的 函数 ， 在 本 例 中 ， 该 函数 


为 “_+_” 因此 得 到 新 的 值 为 2， 更 新 地 址 为 3 的 槽 。 结 果 如 图 8-4 所 示 。 
<"A", 1> 
mergeValue 


HashMap 


图 8-4 更 新 已 有 值 后 的 哈 希 表 


reduceByKey 指定 了 combiner， 因 此 会 在 map 端 执行 结合 操作 ，reducer 接收 到 的 键 值 
对 数据 ， 值 的 类 型 是 C 而 非 YV《〈 尽 管 在 本 例 中 ，C 和 V 是 相同 类 型 )， 这 时 候 如 果 键 值 对 应 
的 槽 为 空 槽 ， 直 接 插入 kc. 2， 否 则 调用 mergeCombiners(oldValue，kc. 2) 函 数 来 计算 新 的 
值 。 对 于 reduceByKey 转换 操作 ，mergeCombiners 实际 为 用 户 调用 reduceBykey 时 指定 的 函 
数 。 图 8-5 为 执行 mergeCombiners 前 后 的 哈 希 表 状态 。 


<"A", 3> 


mergeCombiners 


HashMap HashMap 


图 8-5 ”执行 mergeCombiners 前 后 的 哈 希 表 


到 此 为 止 ， 数 据 已 经 被 成 功 地 聚合 和 计算 了 ， 当 然 在 实际 的 过 程 中 需要 考虑 的 问题 还 很 
多 ， 例 如 哈 希 表 冲突 解决 、 大 小 分 配 、 内 存 限制 等 。 

接 下 来 ， 思 考 下 Spark 与 MR 机 人 制 中 的 聚合 -计算 过 程 的 区 别 。 首 先 ，Spark 的 聚合 - 计 
算 过 程 不 需要 进行 任何 排序 ， 这 意味 Spark 贡 省 了 排序 所 消 耗 的 大 量 时 间 ， 代 价 是 最 后 得 到 
的 分 区 内 部 数据 是 无 序 的 ， 再 者 ，Spark 的 聚合 -计算 过 程 是 同步 进行 的 ， 聚 合 完 毕 ， 结 果 
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也 计算 出 来 ， 而 Hadoop 需要 等 聚合 完成 之 后 ， 才 能 开始 数据 的 计算 过 程 ， 最后，Spark 将 
所 有 的 计算 操作 都 限制 在 了 createCombiner、mergeValue 以 及 mergeCombiners 之 内 ， 在 灵活 
性 之 上 显然 要 弱 于 Hadoop， 例 如 ，Spark 很 难 通过 一 次 聚合 -计算 过 程 求 得 平均 数 。 


8.13 哈 希 Shuffle 与 排序 Shuffle 


相 比 MR 机 制 仅 有 固定 一 种 Shuffle 机 制 不 同 ，Spark 提供 了 两 种 Shuffle 机 制 给 用 户 
选择 。 

在 Spark 1.1 之 前 的 版 本 中 ，Spark 仅 提 供 了 哈 希 Shuffle (Hash-Based Shuffle) 机 制 ， 
其 实现 同 前 面 所 述 的 聚合 -计算 过 程 基本 一 致 。 如 8.1.2 节 中 所 述 ， 聚 合计 算 过 程 后 ， 分 区 内 
部 的 数据 是 无 序 的 ， 如 果 开 发 者 希望 有 序 ， 就 需要 调用 排序 相关 的 转换 操作 ， 例 如 sortBy、 
sortByKey; 再 者 ， 哈 希 Shuffle 每 个 mapper 会 针对 每 个 reducer 生成 一 个 数据 文件 ， 当 
mapper 和 reducer 数量 较 多 时 ， 会 导致 磁盘 上 生成 大 量 的 文件 。 

从 Spark 1.1 开始 ，Spark 提供 了 另 一 套 备 选 Shuffle 机 制 排序 Shuffle 〈Sort- 
BasedShuffle)， 并 且 从 Spark 1.2 开始 ， 把 排序 Shuffle 作为 默认 的 Shuffle 机 制 ， 用 户 可 以 将 
配置 项 spark.shuffle.manager 设置 为 hash 或 者 sort， 来 使 用 对 应 的 Shuffle 机 制 。 排 序 Shuffle 
相 比 哈 希 Shufftle， 两 者 的 Shuffle 读 过 程 是 完全 一 致 的 ， 唯 一 区 别 在 于 Shuffle 写 过 程 。 换 句 
话说 ， 两 者 区 别 仪 在 于 map 端 、reduce 端 是 否 完全 一 致 。 排 序 Shuffle 能 保证 每 个 mapper 只 
输出 一 个 文件 ， 且 内 部 数据 至 少 会 按照 分 区 编号 排序 ， 在 ShuffleDepdency 指定 keyOrdering 
的 前 提 下 ， 单 个 分 区 内 部 还 会 进一步 按照 键 值 进行 排序 。 

两 类 Shuffle 机 制 读 写 过 程 的 具体 实现 会 在 后 面 8.2 以 及 8.3 小 节 中 具体 讲解 。 


t= 


8.1.4 ”Spark 的 Shuffle 过 程 


下 面 继 续 从 源码 的 角度 ， 了 解 Spark 是 如 何 触 发 Shuffle 写 和 Shuffle 读 过 程 的 。 

mapper 本 质 上 是 一 个 任务 。7.3 调度 章节 曾 提 及 过 DAG 调度 器 会 在 一 个 阶段 内 部 划分 
任务 ， 根 据 阶段 的 不 同 ， 得 到 ResultTask 和 ShuffleMapTask 两 类 任务 。ResultTask 会 将 计算 
结果 返回 给 Driver，ShuffleMapTask 则 将 结果 传递 给 Shuffle 依赖 中 的 子 RDD。 因 此 ， 可 以 
从 ShuffleMapTask 入 手 ， 观 察 Mapper 的 大 致 工作 流程 ， 实 现代 码 如 下 。 


private[spark] class ShuffleMapTask( 
stageld: Int, 
taskBinary: Broadcast[ Array[Byte]], 
partition: Partition, 
@transient private var locs: Seq[TaskLocation]) 

extends Task[MapStatus](stageld, partition.index) with Logging { 

/ 省 略 部 分 源码 
override def runTask(context: TaskContext): MapStatus = { 


val deserializeStartTime = System.currentTimeMillis() 
val ser = SparkEnv.get.closureSerializer.newInstance() 
val (rdd, dep) = ser.deserialize[(RDD!I_], ShuffleDependency[_, _, _])]( 
ByteBuffer. wrap(taskBinary.value), Thread.currentThread.getContextClassLoader) 


_executorDeserializeTime = System.currentTimeMillis() - deserializeStartTime 
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ty { 
val manager = SparkEnv.get.shuffleManager 


writer = manager.getWriter[ Any, Any](dep.shuffleHandle, partitionId, context) 
writer. write(rdd.iterator(partition, context).asInstanceOflIterator[_ <: Product2[Any, Any]]]) 
return writer.stop(success = true).get 
} catch { 
case e: Exception => 


// 省 略 部 分 源码 


} 
} 


由 于 一 个 任务 对 应 当前 阶段 末 RDD 内 的 一 个 分 区 ， 因 此 通过 rdd.iterator(partition,contexb) 
可 以 计算 得 到 该 分 区 的 数据 。 接 下 来 便 是 执行 Shuffle 写 操作 ， 该 操作 由 一 个 ShuffleWriter 
实例 通过 调用 write 接口 完成 ，ApacheSpark 从 ShuffleManager 实例 中 获取 该 ShuffleWriter 
对 象 。 
上 文 提 及 过 ，Spark 提供 了 两 类 Shuffle 机 制 。 对 应 的 ，ShuffleManager 也 有 两 类 子 类 ， 
分 别 是 HashShuffleManager 和 SortShuffleManager 。 ShuffleManager 的 主要 作用 是 提供 
ShuffleWriter 和 ShuffleReader 用 于 Shuffle 写 和 Shuffle 读 过 程 。HashShuffleManager 提供 
HashShuffleWriter 和 HashShuffleReader， 而 SortShffleManager 提供 的 是 SortShuffleWriter 和 
HashShuffleReader。 可 以 看 到 ， 哈 希 Shuffle 和 排序 Shuffle 的 唯一 区 别 在 于 Shuffle 写 过 程 
读 过 程 完 全 一 致 。 
继续 来 观察 Shuffle 读 的 触发 。Spark 中 ， 聚 合 器 中 的 3 个 函数 是 在 PairRDDFunctions. 
combineByKey 方法 中 指定 。 可 以 看 到 ， 若 新 RDD 与 旧 RDD 的 分 区 器 不 同时 ， 会 生成 一 个 
ShufftledRDD， 实 现代 码 如 下 。 


-> 


def combineByKey[C](createCombiner: V => C， 
mergeValue: (C, V) => C, 
mergeCombiners: (C, C) => C， 
partitioner: Partitioner, 
mapSideCombine: Boolean = true, 
serializer: Serializer = null): RDDI[(K, C)] = self.withScope { 
/ 省 略 部 分 代码 
val aggregator = new Aggregator[K, V, C]( 


self.context.clean(createCombiner), 
self.context.clean(mergeValue), 
self.context.clean(mergeCombiners)) 
if (self.partitioner == Some(partitioner)) { 
self.mapPartitions(iter => { 
val context = TaskContext.get() 
new InterruptibleIterator(contextb ageregator.combineValuesByKey(iter, context)) 
}, preservesPartitioning = true) 
} else { 
new ShuffledRDDIK, V, Cl(self, partitioner) 


.SetSerializer(serializer) 
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.SetAggregator(aggregator) 
.SetMapSideCombine(mapSideCombine) 


} 
} 


观察 ShuffledRDD 是 如 何 获取 分 区 数据 的 。 与 Shuffle 写 过 程 类 似 ， 先 从 ShuffleManager 
中 获取 ShuffleReader， 通 过 ShuffleReader 的 read 接口 拉 取 和 计算 特定 分 区 中 的 数据 ， 代 码 


如 下 。 


override def compute(split: Partition, context: TaskContext): Iterator[(K, C)] = { 
val dep = dependencies.head.asInstanceOf[ShuffleDependency[K, V, C]] 
SparkEnv.get.shuffleManager.getReader(dep.shuffleHandle, split.index, split.index + 1, context) 
.read() 
.asInstanceOf[Iterator[(K, O)]] 


} 
在 后 面 8.2 以 及 8.3 小 节 会 进一步 分 析 ShuffleWriter.write 和 ShuffleReader.read 的 具体 
实现 。 


- 


8.2 ”Shufile 写 过 程 


联 人 一 


Shuffle 写 过 程 负责 将 数据 进行 分 区 和 持久 化 ， 在 指定 combiner 的 情况 下 还 会 执行 聚合 
计算 操作 。 根 据 采 用 Shuffle 机 制 的 不 同 ， 又 可 进一步 分 成 哈 希 Shuffle 写 过 程 和 排序 Shuffle 
写 过 程 ， 本 节 会 分 别 讲述 这 两 类 Shuffle 写 过 程 的 源码 实现 。 


8.2.1 哈 希 Shuffle 写 过 程 


当 ShuffleManager 为 HashShuffleManager 时 ，ShuffleManager 所 能 获取 得 到 的 ShuffleWriter 
实际 上 是 HashShuffleWriter， 我 们 观察 HashShuffleWriter 的 write 方法 ， 实 现代 码 如 下 。 


Override def write(records: Iterator[Product2[K, V]]): Unit = { 
val iter = if (dep.aggregator.isDefined) { 
if (dep.mapSideCombine) { 
dep.aggregator.get.combineValuesByKey(records, context) 
} else { 
records 
} 
} else { 
require(!dep.mapSideCombine, "Map-side combine without Aggregator specified!") 
records 
} 
for (elem <- iter) { 
val bucketId = dep.partitioner.getPartition(elem._1) 
shuffle.writers(bucketId).write(elem._1, elem. 2) 


} 
} 
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可 以 看 到 ， 哈 希 Shuffle 写 过 程 可 以 划分 成 两 个 步骤 ， 先 是 进行 聚合 -计算 操作 ， 之 后 再 
把 得 到 的 数据 的 每 一 个 元 素 进 行 持久 化 。 

1. 聚合 一 计算 过 程 

只 有 在 ShuffleDependency 中 设置 mapSideCombine 值 为 true 时 ， 才 会 在 map 端 执行 聚 
合计 算 操 作 ， 和 否则 直接 返回 原始 的 键 值 对 数据 。 聚 合 -计算 过 程 调用 了 聚合 器 中 的 方法 
combineValuesByKey， 该 方法 的 源码 实现 如 下 。 


def combineValuesByKey(iter: Iterator[_ <: Product2[K, V]], 
context: TaskContext): Iterator[(K, C)] = { 
if (lisSpillEnabled) { 
val combiners = new AppendOnlyMap[K, C] 
var kv: Product2[K, V] = null 
val update = (had Value: Boolean, oldValue: C) => { 
if (hadValue) mergeValue(oldValue, kv._2) else createCombiner(kv._2) 
} 
while (iter.hasNext) { 
kv = iter.next() 
combiners.changeValue(kv._1, update) 
} 
combiners.iterator 
} else { 
val combiners = new ExternalAppendOnlyMap[K, V, Cl(createCombiner, mergeValue, mergeCombiners) 
combiners.insertAll(iter) 
// 如 果 context 非 空 ， 则 更 新 task 的 统计 信息 
/ 在 未 来 的 发 布 版 本 中 让 context 为 非 可 选 的 


Option(contexb.foreach { c => 


c.taskMetrics.incMemoryBytesSpilled(combiners.memoryBytesSpilled) 
c.taskMetrics.incDiskBytesSpilled(combiners.diskBytesSpilled) 
} 


combiners.iterator 


} 
} 


可 以 看 到 ， 聚 合 过 程 中 ， 程 序 会 根据 是 否 允 许 溢 存 来 使 用 不 同 的 哈 希 结构 存储 数据 。 者 
配置 参数 spark.shuffle.spill 被 设置 为 false， 表 示 所 有 数据 都 存储 在 内 存 当 中 ，Spark 这 时 会 
使 用 AppendOnlyMap 来 存储 数据 ，AppendOnlyMap 是 Spark 自己 实现 的 哈 希 表 ， 在 内 部 通 
过 使 用 数组 来 存储 数据 ， 当 数据 量 超出 一 定 限 制 后 ， 会 自动 对 数据 进行 扩展 ， 并 对 所 有 的 键 
值 重新 进行 哈 希 操作 。 若 配置 参数 spark.shuffle.spill 设置 为 rue， 表 示 超 出 限制 的 数据 会 被 涪 存 
在 磁盘 当中 ，Spark 这 时 会 使 用 ExternalAppendOnlyMap 来 存储 数据 ，ExternalAppendOnlyMap 
会 在 哈 希 表 快 被 填 满 时 检查 是 否 可 以 申请 更 多 内 存 空间 ， 如 果 得 到 的 内 存 空间 仍然 不 能 满足 
要 求 ， 则 会 将 哈 希 表 中 的 数据 按照 哈 希 值 〈 而 非 键 值 ) 进行 排序 ， 并 将 排序 后 的 结果 写 入 磁 
盘 中 ， 最 后 再 把 内 存 中 的 哈 希 表 以 及 溢 存 文件 的 中 数据 进行 合并 -聚合 操作 ， 放 在 哈 希 表 
中 。 两 种 哈 希 表 的 实现 较为 复杂 ， 出 于 篇 幅 关 系 ， 在 此 不 进行 进一步 的 展开 。 

聚合 一 计算 过 程 中 还 会 调用 combiner 的 changeValue 方法 ， 该 方法 会 和 之 前 8.1.2 聚合 


mm 


aT 
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器 小 节 中 所 讲述 的 一 样 ， 使 用 3 个 聚合 函数 来 对 数据 进行 聚合 和 计算 。 当 所 有 数据 聚合 完毕 
之 后 ， 会 返回 一 个 包含 结果 数据 的 迭代 器 。 

2. 持久 化 过 程 

得 到 包含 数据 的 迭 代 器 之 后 ，Spark 会 遍历 迭 代 器 指向 容器 中 的 每 一 个 元 素 ， 将 元 素 进 
行 持久 化 。 在 哈 希 Shuffle 写 过 程 中 ， 首 先 调用 分 区 器 判断 数据 应 该 传 给 哪 一 个 分 区 ， 同 一 
个 分 区 中 的 数据 会 被 写 入 同一 个 文件 当中 ，Spark 把 这 样 的 文件 称 为 桶 (Bucket)。 

在 早期 版 本 的 Spark 中 ， 每 一 个 mapper 会 生成 R 个 数量 的 文件 ， 这 就 意味 着 如 果 一 个 
Shuffle 过 程 中 存在 M 个 mapper， 会 生成 RXM 个 文件 ， 如 果 Shuffle 过 程 中 本 身 数据 量 并 
不 大 ， 过 多 的 文件 会 降低 1O 性 能 。Spark 从 0.8.1 开始 引入 了 Shuffle 文件 合并 机 制 (Shuffle 
Consolidation )， 然 而 可 能 与 读者 预想 的 将 一 个 mapper 传送 给 不 同 reducer 的 数据 合并 成 一 个 
文件 ， 然 后 再 额外 提供 一 个 索引 文件 的 机 制 不 大 一 样 。 由 于 集群 核心 数目 可 能 少 于 mapper 
的 数量 ， 因 此 在 同一 核心 上 ， 可 能 会 执行 同一 Shuffle 过 程 中 不 同 的 mapper， 因 此 Spark 让 
这 些 不 同 批 次 的 mapper 使 用 同一 批文 件 〈 桶 )， 这 时 候 ， 总 文件 的 数量 不 再 是 MXR， 而 是 
CXR， 其 中 C 是 集群 的 核心 数量 。 


8.2.2 ”排序 Shuffle 写 过 程 


排序 Shuffle 与 哈 希 Shuffle 最 大 的 区 别 在 于 ， 每 个 map 端 最 多 只 会 输出 两 个 文件 ， 其 中 
一 个 是 数据 文件 ， 用 于 存储 即将 送 往 reduce 端的 数据 ; 另 一 个 是 索引 文件 ， 用 于 说 明 不 应 该 
发 送 往 reducer 的 数据 在 数据 文件 中 的 偏 移 量 。 为 了 生成 相应 的 数据 和 索引 文件 ， 需 要 保证 
map 端 输出 的 数据 ， 至 少 是 分 区 有 序 的 ， 也 就 是 按照 reducer 分 区 编号 排 好 顺序 。 
排序 Shuffle 的 实现 远 比 哈 希 Shuffle 要 复杂 ， 在 此 仅 简 单 介绍 其 流程 。SortShuffleWriter 
write 的 实现 代码 如 下 。 


jx 


Override def write(records: Iterator[Product2[K, V]]): Unit = { 
if (dep.mapSideCombine) { 
require(dep.aggregator.isDefined, "Map-side combine without Aggregator specified!") 
sorter = new ExternalSorter[K, V, C]( 
dep.aggregator, Some(dep.partitioner), dep.keyOrdering, dep.serializer) 


sorter.insertAll(records) 


} else { 
/ 这 个 例子 中 ， 把 聚集 器 或 者 排序 器 传递 给 sorter， 这 里 不 关心 每 一 个 分 区 中 的 key 是 否 得 
到 排序 


sorter = new ExternalSorter[K, V V](None, Some(dep.partitioner), None, dep.serializer) 
sorter.insertAll(records) 
} 
// Don't bother including the time to open the merged output file in the shuffle write time, 
// because it just opens a single file, so is typically too fast to measure accurately 
// (see SPARK-3570). 
val outputFile = shuffleBlockResolver.getDataFile(dep.shuffleld, mapId) 
val blockId = ShuffleBlockId(dep.shuffleId, mapId, IndexShuffleBlockResolver.NOOP_REDUCE, ID) 
val partitionLengths = sorter.writePartitionedFile(blockId, contexb outputFile) 
shuffleBlockResolver.writeIndexFile(dep. shuffleld, mapId, partitionLengths) 
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mapStatus = MapStatus(blockManagershuffleServerId, partitionLengths) 


} 


SortShuffleWriter 使 


按照 reducer 分 区 编号 排序 ， 而 如 果 指 定 了 keyOrdering | 
才 会 有 意义 ， 否 则 这 个 分 区 内 部 键 值 排序 过 程 会 留 到 Shuffle 读 过 程 来 执行 。 
据 是 否 要 求 Combine 操作 以 及 分 区 的 个 数 ， 来 六 
] PartitionedAppendOnlyMap 哈 希 表 结 构 ，| 
的 情况 ， 另 一 种 是 使 用 PartitionedPairBuffer/PartitionedSerializedPairBuffer 
区 数量 比较 多 (大 于 spark.shuffle.sort. 
区 数量 比较 少 的 


指定 了 combiner 


ExternalSorter 内 部 会 


储 结构 。 可 以 分 成 三 种 情况 ， 


SS 
需要 进行 察 合 


(根据 是 否 需 要 


人 焉 口 丰 了 廊 


bypassMergeThreshold 设置 的 阔 值 )， 
时 候 ， 则 直接 把 数据 按照 分 
对 于 哈 希 表 和 缓冲 区 两 利 


种 是 使 ) 


序列 化 决定 ) 缓冲 


区 结构 ， 月 
日 不 需要 聚合 的 时 候 ; 而 最 后 一 种 当 分 
区 写 入 到 不 同文 件 中 。 
情况 ， 每 添加 一 个 数据 ， 都 会 检查 是 否 


] ExternalSorter 来 辅助 


其 完成 聚合 、 计 算 以 及 提 
意 的 是 ， 无 论 ShuffleDependency 是 否 指 定 了 combiner，ExternalSorter 输出 的 结果 都 能 保 订 


F 序 的 工作 o 需要 注 


于 分 


于 分 区 内 部 键 值 的 排序 ， 只 


大 于 


有 同时 


定数 据 的 存 
于 


阔 值 。 如 果 大 于 ， 则 


尝试 申请 更 多 内 存 ， 扩 大 阔 值 。 如 果 仍 然 大 于 阔 值 。 则 调用 ExternalSorter spillToMergeableFile 函 


数 将 其 溢 存 。 游 存 前 的 数据 会 按照 指定 的 分 
存 中 的 数据 进行 排序 ， 然 
据 插 入 ExternalSorter 后 ， 会 执行 
序 过 程 会 将 内 存 中 


当 所 有 的 数 


keyOrdering (如 


8.3 


无 论 是 哈 希 Shuffle 还 是 排序 Shuffle， 两 者 使 用 的 ShuffleReader 实际 | 


写 入 到 文件 中 。 


区 纺 


果 指 定 的 话 ) 排序 的 文件 。 


Shuille 读 过 程 


的 数据 以 及 游 存 文 件 中 的 数据 最 


终 合 3 


一 口 


Reader。HashShuffleReader 的 read 方法 实现 的 代码 如 下 。 


Override def read(): Iterator[Product2[K, Cl]]={ 
val ser = Serializer. getSerializer(dep.serializer) 
val iter = BlockStoreShuffleFetcher.fetch(handle.shuffleld, startPartition, context, ser) 


val aggregatedIter: Iterator[Product2[K, C]] =if (dep.aggregator.isDefined) { 


if (dep.mapSideCombine) { 


new Interruptiblelterator(context, dep.aggregator.get.combineCombinersByKey(iter, context)) 


}el 


se{ 


new InterruptibleIterator(contexb dep.aggregator.get.combineValuesByKey(iter, context)) 


} 


} else 


{ 


require(!dep.mapSideCombine, "Map-side combine without Aggregator specified!") 


/1/ 


} 


// 如 果 这 下 
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巴 Product2s 转换 为 成 对 的 结构 ， 


大 | 


定义 了 排序 的 ordering， 则 会 地 输出 进行 排序 


为 下 游 RDD 需要 用 上 这 个 结构 
iter.asInstanceOf[Iterator[Product2[K, C]]].map(pair => (pair._1, pair. 2)) 


写 以 及 keyOrdering 〈 如 果 指 定 的 话 ) 对 内 


次 外 部 排序 过 程 来 对 数据 进行 排序 ， 排 
成 一 个 内 部 数据 按 分 区 和 按 


上 都 是 HashShuffle 


dep.keyOrdering match { 
case Some(keyOrd: Ordering[K]) => 
/ 创建 一 个 外 部 排序 器 来 对 数据 进行 排 请 


val sorter = new ExternalSorter[K, C, C](ordering = Some(keyOrd), serializer = Some(ser)) 


sorter.insertAll(ageregatedIter) 
context.taskMetrics.incMemoryBytesSpilled(sorter.memoryBytesSpilled) 
context.taskMetrics.incDiskBytesSpilled(sorter.diskBytesSpilled) 
sorter.iterator 

case None => 
aggregatedIter 


} 


Shuffle 读 过 程 可 被 分 成 3 步 ， 分 别 是 : 拉 取 数据 、 聚 合 -计算 和 排序 。 

1. 拉 取 数据 

reducer 首先 需要 调用 BlockStoreShuffleFetcherfetch 方法 。 从 所 有 的 map 端 拉 取 数 据 ， 
拉 取 的 数据 的 位 置 实际 上 是 被 记录 在 MapOutputTracker 中 。 当 一 个 ShuffleMap 阶段 创建 
时 ， 该 阶段 对 应 的 Shuffle 会 注册 到 MapOutputTracker 中 。 而 当 该 阶段 执行 完毕 后 〈 也 就 是 
所 有 的 mapper 执行 完毕 )，Spark 会 将 mapper 执行 的 主机 地 址 以 及 mapper 端的 数据 大 小 登 
记 到 MapOutputTracker 对 应 的 Shuffle 当中 ， 因 此 这 里 会 根据 Shuffle ID 从 MapOutputTracker 
中 获取 数据 的 位 置 ， 再 调用 底层 存储 相关 接口 来 拉 取 数据 。 

2. 聚合 -计算 

当 数据 到 达 之 后 ， 接 下 来 需要 对 数据 进行 聚合 -计算 操作 。 由 于 map 端 可 能 已 经 执行 过 
聚合 -计算 操作 ， 因 此 到 reduce 端的 数据 可 能 已 经 不 是 原先 的 <K，V> 数 据 类 型 ， 而 是 <K，C> 
键 值 对 。 如 果 mapSideCombine 是 true， 则 调用 combineCombinersByKey 方法 ; 否则 调用 
combineValuesByKey 方法 。 两 者 最 大 的 区 别 在 于 update 函数 ， 实 现代 码 如 下 。 


def combineValuesByKey(iter: Iterator[_ <: Product2[K, V]], 
context: TaskContext): Iterator[(K, C)] = { 
if (lisSpillEnabled) { 
/ 省 略 部 分 代码 
val update = (had Value: Boolean, oldValue: C) => { 
if (hadValue) mergeValue(oldValue, kv._2) else createCombiner(kv._2) 
} else { 
val combiners = new ExternalAppendOnlyMap[K, V, Cl(createCombiner, mergeValue, mergeCombiners) 
/ 省 略 部 分 代码 
} 
} 


def combineCombinersByKey(iter: Iterator[_ <: Product2[K, C]], context: TaskContext) 
: Iterator[(K, OC)] = 
{ 
if (lisSpillEnabled) { 
/ 省 略 部 分 代码 
val update = (hadValue: Boolean, oldValue: C) => { 
if (hadValue) mergeCombiners(old Value, kc._2) else kc. 2 


} 
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/ 省 略 部 分 代码 
} else { 
val combiners = new ExternalAppendOnlyMap[K, C, Cllidentity, mergeCombiners, mergeCombiners) 
/ 省 略 部 分 代码 
} 
} 


3. 排序 

当 Shuffle 读 端 聚合 -计算 过 程 完 成 后 ， 得 到 的 数据 是 无 序 的 ， 这 时 候 如 果 对 数据 进行 排 
序 ， 则 需要 设置 ShuffleDependency.keyOrdering 成 员 不 为 空 。 例 如 sortByKey 操作 中 ， 得 到 
的 ShuffledRDD 的 聚合 器 为 空 。keyOrdering 设置 为 顺序 或 者 逆序 ， 在 此 处 会 对 数据 进行 一 
次 排序 。 


] 8.4 ”本 章 小 结 


Spark 的 Shuffle 过 程 与 Hadoop 的 Shuffle 过 程 有 诸多 类 似 ， 却 又 在 机 制 上 有 自己 的 创新 
和 优化 。 本 章 首先 从 全 局 角度 介绍 Spark 的 整个 Shuffle 过 程 ， 再 深入 到 源码 级 别 ， 介 绍 了 
Shuffle 写 和 Shuffle 读 两 个 子 过 程 ， 使 读者 能 够 充分 地 理解 Shuffle 过 程 的 原理 与 机 制 。 
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第 四 篇 应 用 篇 


应 用 篇 主要 为 读者 讲解 Spark 的 典型 应 用 案例 。 学 习 完 前 面 的 Spark 基础 
和 开发 知识 之 后 ， 再 学 习 Spark 的 典型 应 用 案例 能 使 读者 树立 生产 环境 下 的 
大 数据 系统 思维 。 通 过 介绍 视频 娱乐 、 电 商 、 电 信 、 零 售 以 及 其 他 领域 对 
Spark 平台 在 生产 系统 中 的 应 用 ， 使 读者 了 解 Spark 平台 的 前 沿 使 用 情况 ， 启 
发 读者 对 Spark 更 多 领域 的 应 用 畅想 。 


第 9 


YH 


章 


现在 也 在 多 个 项 目 中 部 署 使 用 


等 已 经 将 Spark 技术 用 于 自己 


领域 扮演 更 加 重要 的 角色 


Spark:; 


视频 娱乐 领域 


在 如 今 数 据 量 迅速 增长 的 时 代 ， 对 大 规模 的 数据 处 班 
分 布 式 数据 分 析 处 理 方面 备 受 关注 ， 但 仍然 存在 一 些 局 限 诉 
里 引擎 ， 已 经 逐渐 成 为 替代 Hadoop 的 下 一 代 云 计算 大 数据 核心 技术 。 由 于 Spark 的 性 能 优 
越 ， 国 外 一 些 大 型 互联 网 公司 已 经 部 署 了 Spark， 


战 来 越 迫切 。 虽 然 Hadoop 在 
生 。Spark 是 一 个 新 兴 的 大 数据 处 


至 连 Hadoop 的 早期 主要 贡献 者 Yahoo 
国内 的 淘宝 、 优 酷 士 豆 、 网 易 、 百 度 、 腾 讯 、 皮 皮 网 
的 商业 生产 系统 中 ，Spark 技术 正在 逐渐 奴 


E 向 成 熟 ， 并 在 各 个 


本 篇 将 从 企业 应 用 实例 方面 为 大 家 讲解 Spark 在 大 型 企业 应 用 中 扮演 的 角色 ， 以 及 如 何 


的 应 用 Spark 的 案例 ， 选 取 上 其 有 代表 性 的 Spark 应 
策 及 结果 四 大 方面 全 方位 解析 相 


实例 ， 从 案例 


关公 司 对 Spark 技术 的 应 用 。 


在 实际 应 用 中 应 用 Spark 的 设计 思想 。 本 章 主 要 从 视频 娱乐 领域 来 分 析 相 关公 司 在 相应 领域 


0.1 腾讯 公司 在 Had00p 和 atk 平台 上 的 应 用 


腾讯 公司 作为 目前 我 国 最 大 的 互联 网 综合 服务 提供 商 之 一 ， 也 是 国 


联网 企业 之 一 ， 腾 讯 拥 有 海 昌 


的 


背景 、 和 案例 需求 、 案 例 对 


内 服务 用 户 最 多 的 互 
j 户 关系 数据 和 基于 此 产生 的 社交 数据 。 这 些 数据 可 以 分 析 


人 们 的 生活 和 行为 ， 可 从 中 挖掘 出 社会 、 文 化 、 商 业 、 健 康 等 领域 的 信息 ， 甚 至 可 以 预测 未 


来 。 腾 讯 对 海量 数据 处 理 的 要 求 比较 高 ， 且 对 这 庞大 的 数据 进行 了 实时 处 理 ， 以 发 挥 它 们 的 


巨大 的 商业 价值 。 下 面 将 腾讯 公司 在 Hadoop 与 Spark 平 


台 上 应 


Mpa 


对 比 来 详细 讲述 其 对 Spark 技术 的 应 用 。 


9.1.1 公司 背景 特点 


么 好 的 收益 ， 其 基础 来 自 于 数据 的 精 疹 


早 在 2013 年 腾讯 就 开始 使 用 Spark， 并 且 实 现 了 广告 模型 的 实时 训练 和 更 新 ， 


推荐 业务 上 取得 了 显著 的 效果 。2015 年 第 一 季度 腾讯 网 络 广告 收入 


协同 过 滤 算 法 ， 通 过 效率 


在 广告 


2014 年 腾讯 的 数据 情况 如 下 。 
1) QQ: 月 活跃 用 户 超 8 亿 ， 最 高 同时 在 线 人 数 2.1 亿 ; 在 线 人 际 关系 链 超 1000 亿 条 。 
2) 微 信 : 月 活跃 超 3.5 亿 ; 日 均 消 息 量 超 50 亿 。 


3) 空间 ; 月 活跃 用 户 超 6 亿 ; 日 均 相 册 上 传 超过 4 亿 ; 日 


写 操作 总 数 过 10 亿 。 


为 27.24 亿 元 ， 能 取得 这 
推荐 。 在 2014 年 ， 腾 讯 收 集 的 数据 已 经 超过 了 1 万 
亿 条 ， 计 算 机 规模 已 经 超过 了 8 千 8 百 台 。 这 么 庞大 的 数据 如 果 能 实时 处 理 ， 就 能 发 挥 出 巨 
大 的 商业 价值 ， 这 个 商业 价值 就 是 精准 推荐 。 实 时 数据 推荐 还 可 以 用 于 视频 的 推荐 ， 音 乐 推 
荐 ， 新 闻 客 户 端的 推荐 ， 游 戏 道具 的 推荐 ， 等 等 。 
会 超过 50 毫秒 。 有 了 这 个 技术 基础 ， 腾 讯 的 精准 推荐 才 


目前 腾讯 做 到 从 数据 进来 到 投放 ， 延 时 不 
有 了 基础 。 


4) 游戏 : 


腾讯 游戏 


5) 网 


站 : 


6) 
从 这 


访 


Hadoop MapReduce 的 处 至 
MapReduce 上 
MapReduce 作业 才 
使 得 基于 MapReduce 的 入 
上 的 优势 ， 
非常 适合 数据 挖 


和 内 存 计 各 
过 程 ， 


广 点 
优势 ， 


些 数据 


通 是 腾讯 最 早 使 月 
围绕 “数据 + 算法 
实时 预测 的 全 流程 实时 并 行 高 维 


日 均 浏 览 量 PC 端 超 
问 用 户 量 PC 端 近 1.3 亿 ; 


虽然 为 大 数据 挖掘 提供 
能 完成 ， 多 个 作业 之 间 存 在 着 元 


日 


活跃 用 户 4.5 亿 ; 手机 游戏 月 活跃 用 户 近 2 亿 。 
馈 17 亿 ， 手 机 端 近 13 亿 。 
手机 端 近 8 千 万 。 


三 二 天 


可 以 看 到 ， 腾 讯 每 天 的 数据 量 几 乎 
数 8000 亿 ， 日 接 入 数据 量 200TB， 并 发 分 拣 业务 接口 10000 个 。 
90% 以 上 的 数据 都 是 在 线 实时 处 理 ， 


E， 妆 据 的 实时 计算 是 他 们 进行 精准 


候 


个 天 文 数字 ，2014 年 最 高 日 接 入 消息 条 
而 面 对 如 此 大 的 数据 量 ， 腾 讯 
荐 的 核心 。 那 么 ， 传 统 的 


模式 可 以 达到 他 们 的 要 求 吗 ? 答 


案 显 然 是 否定 的 。 


了 


可 以 自 


法 实现 存在 严重 的 性 外 
动 调 度 复 杂 的 计算 人 
掘 算法 。 
日 Spark 的 应 用 


有 力 的 支持 ， 但 是 复杂 的 挖掘 算法 往生 


问题 。 


FE 需 要 多 个 


余 的 磁盘 让 
后 起 之 秀 Spark 得 益 
E 务 ， 避 免 中 间 结 果 的 磁盘 


卖 写 开销 和 多 次 资源 申请 过 程 ， 
益 于 其 在 迭代 计算 
读 写 和 资源 申请 


+ 系统 ” 


统 上 ， 
同时 


持 挖 掘 分 析 类 计算 、 交 互 式 实 


数据 拥有 


文 持 每 天 上 百 亿 的 请 求 量 。 


vA 


> 一。 腾讯 大 数据 精准 推 
这 套 技术 方案 ， 实 现 了 数据 实时 采集 、 信 


存 借 


助 Spark 快速 迭代 的 
法 实时 训练 、 系 统 


算法 ， 最 终 成 功 应 用 于 广 点 通 PCTR“《〈 点 击 率 预测 ) 投放 系 


为 了 满足 挖掘 分 析 与 交互 式 实 时 碍 


9.1.2 ”业务 需求 


从 上 市 


其 在 用 户 数 据 、 消 息 数据 分 析 及 推 
腾讯 要 实现 广告 的 精准 推荐 
一 秒 钟 前 的 行为 和 一 秒 钟 后 的 行为 有 着 天 差 地 别 。 


的 ， 


找到 


数据 ， 
(点 击 率 ) 


因而 


J 每 天 要 高 效 、 稳 定 地 在 


对 查询 计算 以 及 在 允许 
超过 8000 台 的 Spark 集群 ， 


并 独立 维 


询 的 计算 需求 ， 腾 讯 大 数据 使 用 


Spark 平台 来 文 
误差 范围 的 快速 查询 计算 ， 目 前 腾讯 大 


E 护 Spark 和 Shark 分 支 。 


分 析 得 知 腾讯 的 用 户 和 产品 数据 量 都 比较 多 ， 对 业务 数据 有 极 大 的 分 析 需 求 ， 尤 


荐 系统 方面 应 
， 对 数据 的 实时 


户 高 好 ， 而 现在 实时 变 得 
关 广 告 ， 转 化 率 会 比较 高 。 如 果 还 在 推送 几 天 前 这 个 ) 
全 做 下 去 了 。 所 以 在 腾讯 一 切 数据 都 以 消 
再 做 离线 分 析 。 
能 提升 20% 。 


而 腾讯 公司 对 大 数据 分 析 平 台 


过 去 几 年 ， 


NPAT 


更 为 重要 。 


前 一 秒 看 了 母 婴 内 容 ， 


息 为 中 心 ， 
腾讯 从 原来 的 一 小 时 响应 ， 
规模 越 大 效果 越 明 显 。 腾 讯 敏感 意识 到 实时 


所 以 把 大 部 分 精力 放 到 实时 处 理 数 据 以 及 如 何 优 化 广告 投放 上 。 


用 需求 量 很 大 ， 且 数据 分 析 的 复杂 度 高 。 


性 要 求 会 很 高 。 因 为 数据 首先 是 有 时 效 性 
以 往 腾讯 通过 统计 数据 ， 得 出 规律 ， 
那么 几 秒 内 就 应 该 推送 相 
足球 的 数据 信息 ， 这 个 生意 就 很 
提炼 瓜分 。 实 在 解决 不 了 的 
到 现在 一 秒 钟 精准 推送 ，CTR 
数据 对 于 广告 的 价值 


户 看 
实时 处 理 、 


~ 


本 节 将 


Hadoop 运算 的 差异 。 
9.1.3 ”解决 方案 


从 基于 物品 的 协同 过 滤 推 荐 算 光 
reduce 方案 ) 与 Hadoop MapReudce 上 的 实现 进行 对 比 ， 从 对 比 中 发 现 Spark 运 入 


数据 平台 


性 能 的 需求 和 要 求 也 明显 高 
上 运行 ， 对 腾讯 的 平台 技术 提出 了 很 大 挑 
去 案例 在 Spark MapReduce (Spark API 的 map 和 


于 一 般 公 对 如 此 大 量 的 数 


战 。 


司 。 转 


与 传统 


目前 ， 腾 讯 内 部 规模 最 大 的 分 布 式 系统 是 腾讯 分 布 式 数据 仓库 〈Tencent Distributed Data 
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Warehouse， 简 称 TDW)， 如 图 9-19 所 示 。TDW 集 中 了 腾讯 内 部 各 个 产品 的 数据 ， 为 每 个 产 
品 提供 海量 数据 存储 和 分 析 服务 ， 包 括 数据 挖掘 、 产 品 报表 、 经 营 分 析 等 服务 。TDW 作 为 
腾讯 首 批 对 外 开源 软件 ， 代 码 已 经 托管 到 CSDN CODE 平 台 。 


TDW(Tencent Distributed Data Warehouse) Overview 


Lhoste(Workflow System) 


ee _ User defined jobs 
ive/TIS (Scala/Java/Python/...) 


GAIA(Based on YARN) 


HDFS 


IDE: 用 于 提交 SQL 或 脚本 的 Eclipse 插件 和 Web 界面 
Lhoste: 各 类 作业 的 工作 流 调度 系统 , 类 似 于 Oozie 
GAIA: 基于 YARN 进行 定制 和 优化 的 资源 管理 系统 


图 9-1 TDW 腾讯 


e Gaia 集群 结 点 数 :8000+ 

e HDFS 的 存储 空间 :150PB+ 
9 每 天 新 增 数据 :1PB+ 

9 每 天 任务 数 :1 M+ 

9 每 天 计算 量 :10PB+ 


分 布 式 数据 仓库 平台 


腾讯 分 布 式 数据 仓库 ， 支 持 百 PB 级 的 数据 存储 和 计算 ， 为 公司 提供 海量 、 高 效 、 稳 定 
的 大 数据 平台 文 撑 和 决策 文 持 。 
TDW 计算 引擎 包括 两 部 分 : 一 个 是 偏离 线 的 MapReduce， 一 个 是 偏 实 时 的 Sparkk。 腾 讯 


TDW Spark 平台 基于 社 


区 最 新 Spark 版 本 进行 深度 改造 ， 在 性 能 、 稳 定 和 规模 方面 都 得 到 了 


极 大 的 提高 ， 为 大 数据 挖掘 任务 提供 了 有 力 的 文 持 。 


下 面 将 介绍 基于 物品 的 协同 过 滤 
1. 算法 介绍 


荐 算法 案例 在 TDW Spark 与 MapReudce 上 的 实现 对 比 。 


互联 网 的 发 展 导 致 了 信息 爆炸 。 


用 对 海量 的 信息 ， 如 何 对 信息 进行 刷 选 和 过 小， 将 用 户 


最 关注 最 感 兴趣 的 信息 展现 在 用 户 面 前 ， 己 经 成 为 了 一 个 吸 待 解决 的 问题 。 推 荐 系统 可 以 通 
过 用 户 与 信息 之 间 的 联系 ， 一 方面 帮助 用 户 获取 有 用 的 信息 ， 另 一 方面 又 能 让 信息 展现 在 对 


其 感 兴趣 的 月 


昌 户 面前 ， 实 现 了 信息 提供 商 与 用 户 的 双 启 。 


协同 过 滤 推 荐 (Collaborative Filtering Recommendation ) 算法 是 最 经 典 最 常用 的 推荐 算法 ， 


算法 通过 分 析 用 户 兴 趣 ， 在 用 户 群 中 找到 指定 用 户 的 相似 用 户 ， 毕 合 这些 相 似 用 户 对 某 一 信息 


的 评价 ， 形 成 系统 对 该 指定 用 户 对 此 信息 的 喜好 程度 预测 。 协 同 过 滤 可 细 分 为 以 下 3 种 。 


1) User-based CF: 基于 User 的 协同 过 滤 ， 通 


的 相似 性 ， 根 据 用 户 之 间 的 相似 性 做 出 推荐 。 


2) Item-based CF: 基于 Item 的 协同 过 滤 ， 通 过 用 户 对 不 同 Item 的 评分 来 评测 Item 之 间 


的 相似 性 ， 根 据 Item 之 间 的 相似 性 做 出 推荐 。 


3) Model-based CF: 以 模型 为 基础 的 | 
先 用 历史 资料 得 到 一 个 模型 ， 再 月 


2. 推荐 问题 背景 描述 
1) 输入 数据 格式 ，Uid，ItemId，Rating “〈 用 户 Uid 对 Itemld 的 评分 )。 


© http:/occ.csdn.net/。 
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过 不 同 用 户 对 Item 的 评分 来 评测 用 户 之 间 


协同 过 滤 (Model-based Collaborative Filtering) 是 
日 此 模型 进行 预测 


语 
存 。 


2) 输出 数据 : 每 个 IemId 相似 性 最 高 的 前 N 个 Itemld。 


3) 由 于 篇 幅 限制 ， 这 里 只 选择 基于 Item 的 协同 过 滤 算 法 解决 的 案例 。 


3. 算法 逻辑 


基于 Item 的 协同 过 滤 算 法 的 基本 假设 为 两 个 相似 的 Item 获得 同一 个 用 户 好 评 的 可 能 性 
较 高 。 因 此 ， 该 算法 首先 计算 用 户 对 物品 的 喜好 程度 ， 然 后 根据 用 户 的 喜好 计算 Item 之 间 


的 相似 度 ， 最 后 找 出 与 每 个 Iem 最 相似 的 前 N 个 Iem。 该 算法 的 详细 描述 如 下 。 


计算 用 户 喜好 : 不同 用 户 对 Item 的 评分 数值 可 能 相差 较 大 ， 因 


好 评 1， 否 则 为 差 评 0。 


评分 做 二 元 化 处 理 ， 例 如 对 于 某 一 用 户 对 某 一 Item 的 评分 大 于 其 给 


此 需要 先 对 每 个 用 户 的 
出 的 平均 评分 则 标记 为 


计算 Item 相似 性 : 采用 Jaccard 系数 作为 计算 两 个 Item 的 相似 性 方法 。 狭 义 Jaccard 相 
似 度 适 合计 算 两 个 集合 之 间 的 相似 程度 ， 计 算 方 法 为 两 个 集合 的 交集 除 以 其 并 集 ， 有 具体 分 为 


以 下 3 步 。 
1) Item 好 评 数 统计 ， 统 计 每 个 Item 的 好 评 用 户 数 。 


2) Item 好 评 键 值 对 统计 ， 统 计 任 意 两 个 有 关联 Item 的 相同 好 评 用 户 数 。 


3) Item 相似 性 计算 ， 计 算 任意 两 个 有 关联 Item 的 相似 度 。 


找 出 最 相似 的 前 N 个 Iem。 这 一 步 中 ，Item 的 相似 度 还 需要 归 


每 个 Item 最 相似 的 前 N 个 Item， 有 具体 的 分 为 以 下 3 步 。 

1) Item 相似 性 归 一 化 。 

2) Item 相似 性 评分 整合 。 

3) 获取 每 个 Ttem 相似 性 最 高 的 前 N 个 Item。 

4. 基于 Hadoop MapReduce 实现 的 方案 
在 实现 基于 物品 的 协同 过 滤 推 荐 算法 中 ， 使 用 MapReduce 
编程 模型 需要 为 每 一 步 实现 一 个 MapReduce 作业 ， 一 共 包 含 7 
个 MapRduce 作业 。 每 个 MapReduce 作业 都 包含 map 和 
reduce， 其 中 map 从 HDFS 读 取 数据 ， 输 出 数据 通过 Shuffle 
把 键 值 对 发 送 到 reduce，reduce 阶段 以 <key，Iterator<value>> 
作为 输入 ， 输 出 经 过 处 理 的 键 值 对 到 HDFS。 其 运行 原理 如 
9-2 所 示 。 
使 用 MapReduce 实现 基于 物品 的 协同 过 滤 推 荐 算法 包括 7 
个 MapReduce 作业 ， 而 7 个 MapReduce 作业 意味 着 需要 7 次 
读 取 和 写 入 HDFS， 它 们 的 输入 输出 数据 存在 关联 ，7 个 作业 
输入 输出 数据 关系 如 下 图 9-3 所 示 。 


一 化 后 整合 ， 然 后 求 出 


map reduce 


图 9-2 MapReduce 


HDDD 


图 9-3 算法 中 7 个 mapreduce 的 关联 图 
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上 述 人 
1) 为 了 实现 一 个 业务 逻辑 需要 使 ) 
HDFS 完成 ， 增 加 了 网 络 和 磁盘 的 开销 。 


法 是 传统 Hadoop 的 MapReduce 计生 


模型 的 实现 ， 但 是 会 有 如 下 问题 。 
7 个 MapReduce 作业 ，7 个 作业 间 的 数据 交换 通过 


2) 7 个 作业 都 需要 分 别 调度 到 集群 中 运行 ， 增 加 了 Gaia 集群 〈Gaia 是 腾讯 云 计 和 
系统 ) 的 资源 调度 开销 。 
MR3 重复 读 取 相同 的 数据 ， 造 成 见 余 的 HDFS 读 写 开销 。 


的 资源 调度 平台 ， 类 似 YARN 和 Mesos 资源 管理 
3) MR2 和 


5. 基于 Spark 的 实现 方案 


中 心 


相 比 于 上 述 的 MapReduce 编 程 模型 ，Spark 提 供 了 更 加 灵活 的 DAG 编 程 模型 ， 不 仅 包 含 
传统 的 map、reduce 接 口 ， 还 增加 了 filter、flatMap 、union 等 操作 接口 ， 使 得 编写 Spark 程 序 更 


加 灵活 方便 。 使 


groupByKey 


jSpak 编 程 接口 实现 上 述 的 业务 逻辑 如 图 9-49 所 示 。 


stage4 oa 


stage5 


map flatMap 
TC > 
了 groupbyKey 
reduceByKey reduceByKey 


stage3 


| hadoopFile 


HDFS 


stage7 


flatMap 


groupbyKey 


stage8 


rddl8 
saveAsHadoop 


图 9-4 Spark 中 RDD 的 执行 逻辑 


相对 于 Hadoop MapReduce，Spark 在 以 下 方面 优化 了 作业 的 执行 时 间 和 资源 利用 。 


© http://data.qq.com/article?id=823。 
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1) DAG 编程 模型 。 通 过 Spark 的 DAG 编程 模型 可 以 把 7 个 MapReduce 简化 为 一 个 


Spark 作业 。Spark 会 把 该 作业 自 


动 切 分 为 8 个 Stage， 每 个 Stage 包含 多 个 可 并 行 执行 的 


Task。Stage 之 间 的 数据 通过 Shuffle 传递 。 最 终 只 需要 分 别 读 取 和 写 入 HDFS 一 次 。 减 少 了 
6 次 HDFS 的 读 写 ， 读 写 HDFS 次 数 减 少 了 70%。 


2) Spark 作业 启动 后 会 


行 ， 共 用 Executor， 相 对 于 
3) Spark 引入 了 RDD 模型 ， 

slave 节点 的 内 存 中 ， 这 就 减少 了 计算 过 程 ! 

如 对 图 9-4 中 的 rdd3 进行 cache 操作 后 ，rdd4 和 rdd7 都 可 以 访问 rdd3 的 数据 。 相 对 于 


间 数 据 都 以 RDD 的 


MapReduce 解决 了 MR2 和 MR3 重复 读 取 相 同 数据 带 来 的 问题 。 


9.1.4 ”方案 效果 


请 所 需 的 Executor 资源 ， 所 有 Stage 的 Task 以 线程 的 方式 运 
F MapReduce 方式 ，Spark 申请 资源 的 次 数 减 少 了 近 90%。 

E 式 存储 ， 而 RDD 分 布 存储 于 
读 写 磁盘 的 次 数 。RDD 还 提供 cache 机 制 ， 例 


\ 


在 测试 中 使 用 相同 规模 的 资源 ， 其 中 MapReduce 方式 包含 200 个 map 和 100 个 
reduce， 每 个 map 和 reduce 配置 4GB 的 内 存 ; 由 于 Spark 不 再 需要 reduce 资源 ， 而 


MapReduce 的 主要 逻辑 和 资源 消耗 在 map 端 ， 因 


此 使 用 200 和 400 个 Executor 做 测试 ， 


个 Executor 包含 4GB 内 存 。 测 试 结果 如 表 9-1 所 示 ， 其 中 输入 记录 约 为 38 亿 条 。 


表 9-1 Hadoop MapReduce 与 Spark MapReduce 对 同一 资源 测试 结果 


运行 模式 计算 资源 运行 时 间 (min) 成 本 (Slot* 秒 ) 
MapReduce 200 map+100 reduce 120 693872 
Spark 200 Executor 33 396000 
Spark 400 Executor 21 504000 


对 比 结果 表 的 第 一 行 和 第 二 行 ，Spark 运行 效率 和 成 本 相对 于 MapReduce 方式 的 减少 非 


-| 
市 明显 ， ~ 


中 ，DAG 模型 减少 了 70% 的 HDFS 读 写 及 cache 了 


E 复 数据 的 读 取 ， 这 两 个 优化 


既 能 减少 作业 运行 时 间 又 能 降低 成 本 ， 而 资源 调度 次 数 的 减少 能 提高 作业 的 运行 效率 。 


对 比 结果 表 的 第 二 行 和 第 三 行 ， 
成 本 增加 约 25%。 可 以 从 这 个 结果 中 看 到 ， 增 
间 ， 但 并 没有 做 到 完全 线性 增加 。 这 是 因为 每 个 Task 的 运行 时 间 并 不 


某 些 Task 处 理 


ES 


法 启动 下 一 个 Stage， 男 一 方面 作业 是 


闲 的 状况 ， 于 是 导致 了 成 本 的 增加 。 


9.1.5 小结 


数据 挖掘 类 业务 大 多 只 
据 处 理 任务 时 存在 着 严重 的 性 能 问题 。 钊 
算 优势 ， 将 会 大 幅 降低 运行 
会 在 资源 利 


群 ， 并 
利 的 支持 。 


直 占 有 


对 这 些 任务 ， 


用 率 、 稳 定性 和 易 月 


昌 性 等 方面 做 进 


增加 一 信 的 Executor 数目 ， 作 业 运行 时 间 减 少 约 30%， 
1 Executor 资源 能 有 效 地 减少 作业 的 运行 时 


是 完全 相等 的 ， 例 如 


的 数据 量 比 其 他 Task 多 ; 这 可 能 导致 Stage 的 最 后 时 刻 某 些 Task 未 结束 而 无 


Executor 的 ， 这 时 候 会 出 现 一些 Executor 空 


逻辑 ， 传 统 的 MapReduce/Pig 类 框架 在 应 对 此 类 数 
如 果 利 用 Spark 的 迭代 计算 和 内 存 计 
村 间 和 计算 成 本 。TDW 目前 已 经 维护 了 千 台 规模 的 Spark 集 
步 的 提升 和 改进 ， 为 业务 提供 更 有 
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0.2 Spotiy 公司 在 Hadoop 和 $park 平台 L$ 算法 的 运行 时 间 对 比 


Spotify 公司 是 全 球 最 大 的 正版 流 媒体 音乐 服务 平台 之 一 ， 他 们 使 用 各 种 机 器 学 习 模型 来 
增强 其 音乐 推荐 功能 ， 包 括 网 页 发 现 和 电台 。 本 节 将 通过 Hadoop 和 Spark 平台 运行 ALS 竺 
法 的 时 间 对 比 来 全 方位 解析 Spotify 公司 对 Spark 技术 的 应 用 。 


9.2.1 公司 背景 特点 


Spotify 是 全 球 最 大 的 流 媒体 音乐 服务 之 一 。Spotify 是 一 款 具 有 革命 性 、 用 户 向 心力 和 能 
改变 用 户 下 载 试听 习惯 的 音乐 试听 软件 。 其 首次 将 P2P 9 这 一 技术 合法 化 ， 用 插播 广告 的 形 
式 〈 包 括 声 音 和 图 片 ) 获得 收 支 平 衡 。 和 截止 到 2015 年 1 月 ，Spotify 已 经 拥有 超过 6000 万 的 
] 户 ， 其 中 1500 万 为 付费 用 户 。 并 且 Spotify 现 在 约 有 2000 万 首 歌曲 ， 并 仍 在 以 每 天 新 增 2 
万 首 新 歌 的 速度 扩大 中 。 

Spotify 的 收入 主要 是 来 自 免费 服务 中 的 广告 和 付费 用 户 的 订阅 。 付 费 服务 包括 两 种 类 
型 : 4.99 美元 /月 或 9.99 美元 /月 ， 它 们 都 能 让 用 户 免 受 广告 干扰 ， 无 限量 收听 音乐 ， 选 择 每 
月 9.99 美元 的 用 户 还 可 享受 包括 移动 访问 和 离线 模式 在 内 的 高 级 服务 。 
同时 ，Spotify 不 但 可 以 将 音乐 收听 记录 提交 给 用 户 的 账户 ， 还 具备 大 量 的 社会 化 音乐 属 
性 。 包 括 播放 列表 创建 与 分 享 、 艺 人 电台 、 音 乐 推荐 、 Spotify 流行 榜 单 和 音乐 风格 电台 。 


9.2.2 ”业务 需求 


在 大 数据 时 代 中 ， 数 据 成 为 了 许多 音乐 公司 手中 的 利器 。 通 过 数据 的 收集 和 分 析 ， 他 们 
不 仅 可 以 清楚 地 了 解 到 在 各 大 流 媒 体 服务 网 站 上 歌曲 的 成 绩 ， 同 时 还 能 够 知道 这 些 歌 曲 的 主 
要 听众 群 的 情况 和 听众 喜欢 的 音乐 类 型 ， 其 至 连 听 众 的 听 歌 习惯 都 能 够 了 如 指 掌 。 如 果 想 要 
了 解 像 潜在 歌迷 的 分 布地 区 、 参 加 的 演唱 会 类 型 这 样 的 信息 ， 更 是 小 菜 一 碟 。 所 以 ， 掌 握 数 
据 ， 分 析 数 据 的 潜在 价值 ， 已 经 变 得 至 关 重要 。 

另外， 伴随 着 谷歌 、 苹 果 的 进入 ， 音 乐 流 媒体 在线 听 歌 〉 市 场 温 度 又 升 ， 其 中 个 性 化 
的 播放 列表 和 音乐 推荐 成 为 竞争 焦点 。 目 前 ，Spotify 技术 团队 也 主要 将 精力 放 在 音乐 推荐 功 
能 上 。 音 乐 推荐 功能 包含 4 个 方面 : 发 现 〈 个 性 推荐 )、 电 台 、 相 关 艺 术 家 和 正在 播放 。 传 
统 的 方法 是 基于 历史 数据 的 批 处 理 分 机 ， 所 以 音乐 推荐 的 时 间 间 隔 比 较 长 。 公 司 开始 寻找 更 
好 的 平台 来 运行 与 其 业务 相关 的 推荐 算法 。 


9.2.3 解决 方案 


Spotify 公司 过 去 使 用 的 是 Hadoop 平台 架构 来 进行 数据 分 析 与 处 理 ， 如 图 9-5 所 示 。 但 
是 Hadoop 架构 无 可 避免 地 存在 时 效 性 低 的 缺点 。 由 图 9-5 便 可 以 看 出 因为 Hadoop 受 限 
IO 瓶 贷 ， 导 致 分 析 速 度 比 较 慢 ， 只 适用 于 离线 处 理 ， 使 用 范围 比较 局 限 。 


a 


〇 P2P: Person-to-Person 的 简写 ， 即 个 人 对 个 人 。 
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图 9-5 ”Hadoop 架构 受 IO 瓶颈 的 影响 

Spotify 公司 为 了 更 好 地 了 解 不 同 歌迷 和 听众 的 音乐 品味 ， 并 给 他 们 分 享 不 同 口 味 不 同 风 
格 的 音乐 ， 使 用 了 各 种 机 器 学 习 模 型 来 增强 其 音乐 推荐 功能 ， 包 括 网 页 发 现 和 电台 。 由 于 这 
些 模 型 的 迭代 特性 ， 它 们 非常 适合 Spark 的 计算 模式 ， 可 以 避免 Hadoop 输入 输出 所 带 来 的 
开销 。 所 以 公司 后 续 采 用 了 Spark 架构 。 

Spark 处 理 架 构 与 Hadoop 架构 在 数据 处 理 方面 的 差异 如 图 9-6 所 示 。 


Spark 


[< 一 d . 
rea write i 
i a 


input VS 


Hadoop 


图 9-6 Spark 处 理 框架 与 Hadoop 架构 对 比 


通过 上 图 的 对 比 可 以 看 到 ，Spark 架构 处 理 数 据 只 需要 一 次 读 取 HDFS， 它 充分 利用 内 
存 进行 缓存 ， 可 以 将 数据 放 在 内 存 中 计算 迭代 ， 提 高 了 数据 分 析 的 效率 。 而 对 于 Hadoop 来 
说 ， 需 要 多 次 的 输入 和 输出， 分析 速 度 较 慢 。 因 而 如 果 迭 代 次 数 越 多 ，Spark 架构 相 比 Hadoop 
架构 的 性 能 优越 性 越 明显 。 

9.2.4 方案 效果 

上 述 解决 方案 提 到 在 迭代 次 数 较 多 的 模型 中 ，Spark 架构 的 处 理 效率 相 比 Hadoop 架构 
来 说 更 加 高 效 。 下 面 我 们 来 了 解 上 述 解 决 方案 的 实现 效果 。 这 里 只 针对 ALS 算法 的 运行 时 
间 来 对 比 Spark 平台 和 Hadoop 平台 。 

在 方案 实现 过 程 中 ， 测 试 数据 集 包 含 200 万 用 户 和 50 万 艺术 家 ， 所 有 的 Job 使 用 40 个 
潜在 变量 ，Spark 的 Job 使 用 8GB 的 容器 执行 200 个 Executor。Hadoop Job 使 用 1000 个 
mapper 和 300 个 reducer。 

不 同 平台 上 运行 ALS 算法 的 时 间 对 比如 表 9-2 所 示 。 由 表 中 看 出 ， 在 Spark 平台 运行 
相同 的 算法 ， 运 行 时 间 大 约 是 Hadoop 运行 时 间 的 1/3。 


表 9-2 ALS 在 Hadoop 和 Spark 平台 运行 时 间 对 比 


运行 平台 运行 时 间 (hour) 

Hadoop 10 
Spark(full gridify) 33 
Spark(half gridify) 1.5 
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中 half gridify 是 算法 的 改进 版 ， 同 样 是 在 Spark 上 运行 。 
RR 9-3 是 在 Hadoop 和 Spark 平 台 运 行 ALS 算 法 的 运行 时 间 ， 从 中 可 以 看 出 ， 在 相同 集群 


有 数量 级 的 速度 提升 ， 


条 件 ] 
GraphLab 呈 上 的 运行 时 间 要 慢 1 倍 左右 。 


，Spark 上 运行 的 MLlib 算 法 比 MahoutS 上 运行 相同 算法 


表 9-3 ALS (交替 最 小 二 乘法 ) 在 不 同 平台 的 运行 时 间 


相 比 在 


System Wall-clock time(second) 
MATLAB 15443 
Mahout 4206 
GraphLab 291 
MLlib 481 


9.2.5 小结 


通过 Spotify 公司 的 案例 分 析 ，Spark 平台 架构 运行 机 器 学 习 推荐 算法 的 效率 显著 优 ] 


Hadoop 平台 架构 ， 上 而 的 分 析 数 据 充 分 说 明 Spark 是 比较 高 效 的 运行 平台 。 


] 9.3 ”本 章 小 结 


\ 


章 主要 介绍 了 在 视频 娱乐 领域 的 Spark 实例 ， 介 绍 了 Spark 在 腾讯 公司 和 Spotify 公司 


的 应 用 和 实践 ， 特 别 是 详细 介绍 了 基于 物品 的 协同 过 滤 推 荐 算法 
和 Hadoop 平台 的 效率 对 比 。 在 这 两 个 公司 的 应 用 实践 中 ， 发 现 Spark 的 数据 处 型 
Hadoop 更 加 高 效 ， 这 也 是 越 来 越 多 的 公司 选择 Spark 的 原因 。 


〇 Mahout 是 Hadoop 上 机 器 学 习 的 实现 库 ， 类 似 MLlib。 


以 及 算法 在 腾讯 Spark 平台 


速度 比 


G@ GraphLab 是 由 CMU ( 尤 内 基 梅 隆 大 学 〉 的 Select 实验 室 在 2010 年 提出 的 一 个 基于 图 像 处 理 模型 的 开源 图 计算 框架 ， 框 


架 使 用 C++ 语言 开发 实现 。 


第 10 章 电 商 领域 


上 一 章 主要 分 析 了 Spark 技术 在 广告 、 视 频 娱 乐 领域 的 应 用 案例 。 随 着 大 数据 技术 的 不 
断 发 展 ，Spark 已 经 渐渐 被 应 用 到 各 个 领域 。 本 章 主要 从 电 商 领域 来 分 析 相 应 的 公司 案例 ， 
从 案例 背景 、 案 例 需 求 、 案 例 解 决 方案 及 方案 效果 四 大 方面 全 方位 解析 淘宝 和 Yahoo 公司 对 
Spark 技术 的 应 用 。 


10.1 淘宝 公司 在 Waik 平台 上 对 GraphX 与 Bagel 的 运行 效果 对 比 


淘宝 是 国内 较 早 使 用 Spark 的 公司 ， 通 过 Spark 进行 大 规模 机 器 学 习 、 图 计算 以 及 流 数 
据 分 析 。 由 于 Spark GraphX 性 能 恨 好 ， 又 有 丰富 的 功能 和 运算 符 ， 能 在 海量 数据 上 自如 运 
行 复杂 的 图 算法 ， 淘 宝 尝试 将 它 作 为 分 布 式 图 计算 平台 ， 进 行 各 种 算法 尝试 和 生产 应 用 。 本 
文 结合 GraphX 的 原理 和 特点 ， 分 享 其 在 淘宝 上 的 应 用 实践 。 


10.1.1 公司 背景 特点 


淘宝 网 是 亚太 地 区 较 大 的 网 络 零售 商 图 ， 由 阿里 巴巴 集团 在 2003 年 5 月 10 日 投资 创 
立 。 淘 宝 网 现在 业务 跨越 C2C (个 人 对 个 人 )、B2C (商家 对 个 人 ) 两 大 部 分 。 

截止 2014 年 ， 淘 宝 网 注册 会 员 超 5 亿 人 ， 每 天 有 超过 1.2 亿 的 活跃 用 户 ， 在 线 商 品 数 
达到 10 亿 件 ， 淘 宝 网 和 天 猫 平 台 的 交易 额 总 额 超过 了 1.5 万 亿 ， 如 此 规模 的 业务 促使 公司 的 
运营 数据 飞速 增长 。 

随 着 淘宝 网 规模 的 扩大 和 用 户 数 量 的 增加 ， 淘 宝 也 从 单一 的 C2C 网 络 集 市 变 成 了 包括 
C2C、 团 购 、 分 销 、 拍 卖 等 多 种 电子 商务 模式 在 内 的 综合 性 零售 商 轿 ， 已 经 成 为 世界 范围 的 
电子 商务 交易 平台 之 一 。 

淘宝 网 的 大 部 分 收入 来 自 广告 业务 ， 广 告 推荐 是 技术 应 用 最 多 的 方面 《如 猜 猜 你 喜欢 、 
你 的 朋友 买 了 这 些 、 相 似 物品 、 看 了 这 个 商品 的 人 的 购买 率 )。 淘 宝 因为 业务 量 巨 大 ， 所 以 
对 数据 分 析 处 理 的 要 求 更 高 ， 需 要 处 理 能 力 强 大 、 处 理 效率 高 的 平台 。 


10.1.2 ”业务 需求 


淘宝 数据 总 量 巨大 而 且 每 日 都 会 生成 很 大 流量 (TB 级 别 )， 所 以 需要 可 靠 的 处 理 平台 和 
机 制 去 解决 。 
淘宝 之 前 最 大 的 数据 平台 是 云梯 ， 云 梯 便 是 基于 Hadoop 的 。 不 过 在 用 Hadoop 做 数据 
挖掘 时 遇 到 很 多 问题 ， 其 中 最 大 的 问题 是 处 理 复 杂 数 据 挖掘 算法 的 时 候 ， 需 要 反复 多 次 迭 
代 。 每 次 迭代 的 时 间 消 耗 非 常 大 ， 且 中 间 结 构 序 列 化 和 反 序 列 化 成 本 很 高 ， 这 是 淘宝 选择 一 
个 更 高 性 能 计算 框架 的 原因 之 一 。 
简单 的 MR 模式 也 有 缺陷 ，Hadoop 把 MR 模式 用 于 简单 处 理 数 据 计 算 ， 而 处 理 复杂 算 


法 却 很 难 。 还 有 面向 对 象 编 程 (OOP) 问题 ，OOP 表达 机 器 学 习 算 法 的 过 程 很 烦琐 。 另 外 图 
计算 能 力 非 常 重要 ，Hadoop 有 相应 的 Hama 计算 框架 ， 但 经 过 评估 ， 其 计算 能 力 不 足 以 满 
足 公 司 需 求 。 

以 上 所 有 问题 都 促使 淘宝 寻找 更 好 的 计算 框架 。 


10.1.3 ”解决 方案 


从 上 述 内 容 可 以 看 出 ，Hadoop 在 数据 挖掘 过 程 中 遇 到 了 很 多 问题 ， 所 以 需要 寻求 更 好 
的 平台 来 解决 数据 挖掘 问题 。 

根据 实验 ， 淘 宝 最 后 选择 了 Spark On YARN 的 解决 方案 。 为 什么 淘宝 最 后 的 选择 是 
Spark 呢 ? 有 如 下 几 点 原因 。 

(1) RDD 

Spark 使 用 抽象 的 弹性 分 布 式 数据 RDD， 它 具有 基于 内 存 计算 ， 能 快速 迭代 ， 支 持 
DAG 的 特点 ， 适 合 数据 挖掘 、 机 器 学 习 需 要 迭代 的 作业 。 


(2) Scala 
Scala 支持 函数 式 编程 ， 精 简 灵 活 ， 有 Actor 模型 ， 支 持 高 并 发 ， 适 合 分 布 式 计算 。 
(3) Hadoop 


不 仅 文 持 MapReduce 编程 ， 还 提供 更 多 的 方法 (如 join，filter，flatmap 等 )， 此 外 能 与 
Hadoop 生态 融合 ， 有 类 似 Hive 的 Spark SQL 和 能 支持 从 HDFS 存 取 数 据 ， 可 以 与 Hadoop 
混合 应 用 。 

淘宝 在 较 早 的 时 候 已 经 开始 了 Spark 的 研究 ， 下 面 来 了 解 一 下 淘宝 的 Spark 之 路 ， 如 图 


10-19 所 示 。 
| Spark 0.5 (Mesos) Just for Lab 
Spark 0.6 (Standalone) \ 10 台 小 集群 


2013.08 
se | 阿里 云梯 1 目前 规模 
集群 5000*2 


图 10-1 淘宝 的 Spark 之 路 


由 图 中 可 以 看 出 ， 淘 宝 一 直 在 完善 自己 的 Spark 平台 ， 他 们 的 Spark 平台 已 经 越 来 越 成 熟 。 
下 面 来 了 解 一 下 淘宝 Spark On YARN 的 框架 图 ， 如 图 10-2 所 示 。 


YARN 版 本 : 
0237 Spark 0.8 (YARN) 


© http:/rdc.taobao.org/?p=1948 。 


230 


Application Master 


3. 启动 
AppMaster 


SparkContex 


DAG Scheduler 
YarnClusterSchedul 


Node 
Manager 


2. 分 配 AppMaster 


Spark YARN Resource 
Client Manager 


6. 分 配 Container 


. 申请 Container 


Container Container 
有 (ExecutorBackend) (ExecutorBackend) 
anager 
8 Executor Executor 


图 10-2 Spark On YARN 框架 图 


从 图 中 可 以 看 出 Spark on YARN 发 起 一 个 请 求 ， 会 找到 一 个 Node Manager， 然 后 会 启 
动 Application Master，AppMaster 启动 完毕 ， 会 向 ResourceManager 请 求 Container， 
ResourceManager 会 找到 Node Manager 机 器 启动 Container， 作 为 Executor 容器 ， 真 正 的 交 
互 是 在 ContainerBackend 和 YarnClusterManager 之 间 进 行 的 。YARN 作为 资源 管理 器 ， 隔 离 
了 计算 调度 和 资源 调度 功能 ， 方 便 了 YARN 上 不 同 的 应 用 架构 共享 存储 资源 。 

了 解 了 淘宝 Spark on YARN 框架 的 一 个 运行 流程 ， 下 面 来 继续 了 解 淘宝 内 部 Spark 应 用 
的 开发 流程 。 

淘宝 内 部 Spark 应 用 开发 流程 如 图 10-3 所 示 。 


Big Jobs 


Spark Repository 
GitHub 


人 ee 
本 服务 器 
通过 生产 服务 器 


图 10-3 ”淘宝 Spark 应 用 开发 流程 
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淘宝 推荐 系统 ， 如 图 10-4 所 示 ， 综 合 运 用 了 Spark、Spark MLlib 和 Spark streaming， 
将 它们 组 成 包含 离线 、 近 线 和 在 线 的 立体 三 维 分 析 系 统 ， 履 新 了 淘宝 的 绝 大 部 分 业务 。 


图 10-4 淘宝 推荐 系统 架构 


10.1.4 ”方案 效果 


根据 Spark 平台 ， 淘 宝 做 了 几 个 案例 测试 ， 一 个 是 PageRank 算法 ， 一 个 是 KMeans 算 


法 ， 分 别 如 图 10-5 和 10-6 所 示 。 
1200 
300 
2 § 1000 ss 
on 5 800 忆 E 200 男 10 Worker 
'E 它 国 Graphx EE 
En 000 i 局 公 100 加 20 Worker 
包罗 400 国 Bagel 5 
世 人 名 一 忻 60 Worker 
200 0 
0j 一 sm ， | 国 | _， ， 10GB 20GB Worker 
100w 1000w 100M Memory 
图 10-5 PageRank 算法 的 配置 情况 及 运行 时 间 图 10-6 KMeans 算法 运行 效果 


在 进行 PageRank 算法 案例 实现 时 ， 在 Spark 集群 中 有 50 个 Worker， 每 个 Worker 的 内 
存 是 40GB。 

由 图 10-5 和 图 10-6 可 知 当 数 据 量 在 干 万 级 别 左 右 时 ，GraphX 运行 时 间 稍 小 于 Bagel 
(Spark 原生 的 图 计算 操作 框架 )， 当 数据 量 很 大 《〈《 亿 级 别 ) 时 ， 传 统 的 Bagel 已 经 不 能 完成 
该 业务 需求 ， 说 明 Spark 不 论 在 数据 量 小 的 时 候 还 是 很 大 时 候 ，GraphX 性 能 都 优越 于 
Bagel， 而 且 在 数据 量 很 大 的 时 候 ，GraphX 平台 优越 性 更 突出 。 

由 图 10-6 可 知 当 Worker 数量 增加 ，Spark 运算 的 时 间 显 著 减 少 ， 接 近 线 性 ， 同 时 当 加 
大 一 倍 内存 ，Worker 数 越 多 ， 运 算 越 快 ， 时 间 越 短 。 


10.1.5 小结 
通过 使 用 Spark On YARN 平台 ， 很 好 地 解决 了 淘宝 面临 的 业务 需求 ， 说 明 Spark 的 确 


Fi 
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一 项 的 优秀 开源 技术 。 


不 过 在 Spark on YARN 的 实施 过 程 中 ， 淘 宝 也 遇 到 了 很 多 问题 : 
内 存 消 耗 非 常 多 的 作业 ， 有 可 能 作业 等 


1) 多 生态 作业 竞争 问题 。 
交 上 去 ， 
2) 机 器 内 存 性 能 


E 务 1 


fF， 这 样 花 在 私人 申请 、 任 


这 是 好 处 
比 普通 的 Hadoop 更 加 麻烦 ， 面 

。 如 果 搭 建 Spark on YARN 集群 ， 建 议 不 要 使 
集群 ， 最 好 内 存 为 96GB 或 者 120GB， 机 器 可 以 相对 少 一 点 ， 比如 100 台 20GB 搭建 小 集 


周 度 、 计 算 的 时 间 非 党 多， 最 后 使 Spark 的 性 能 非常 差 ， 既 然 


也 是 一 个 坏处 ， 


尹 
要 运行 Spark， 就 建议 尽量 使 


大 内 存 。 


10.2 ”Yah00! 关 于 开 ive 与 Shark 的 应 用 


和 外 着 CPU、 内 存 都 申请 到 才 可 以 运行 。 
内 存 比较 小 的 机 器 搭 


Yahoo! 很 早 就 开始 使 用 Spark， 将 Spark 用 于 自己 的 广告 平台 、 商 品 交 易 数据 分 析 和 推 
荐 系统 等 数据 分 析 领域 。 本 节 主 要 介绍 了 Yahoo! 把 商务 智能 分 析 (BID) 和 机 器 学 习 推 荐 系 
统 (ML) 两 个 功能 进行 整合 ， 并 对 基于 Hive 和 基于 Spark 的 两 个 方案 进行 了 对 比分 析 。 
10.2.1 公司 背景 特点 

Yahool! 是 类 国 若 名 的 互联 网 门户 网 站 ， 也 是 20 世纪 末 互 联网 奇迹 的 创造 者 之 一 。 其 服 
务 包括 搜索 引擎 、 电 邮 、 新 闻 等 ， 业 务 遍 及 24 个 国家 和 地 区 ， 为 全 球 超过 5 亿 的 独立 用 户 
提供 多 元 化 的 网 络 服务 。 同时 也 是 一 家 全 球 性 的 互联 网 通信 、 商 贸 及 媒体 公司 。2015 年 雅虎 
已 成 为 “全 球 第 三 大 移动 广告 公司 ” 

在 Spark 技术 的 研究 与 应 用 方面 ，Yahoo! 始 终 处 于 领先 地 位 ， 它 将 Spark 应 用 于 公司 的 
各 种 产品 之 中 。 移 动 App、 网 站 、 广 告 服务 、 图 片 服务 等 服务 的 后 端 实 时 处 理 框 架 均 采用 了 
“Spark+Shark” 的 架构 。 

本 节 中 的 案例 主要 是 介绍 Yahoo shoping 的 Spark 应 用 情况 。 
10.2.2 ”业务 需求 

Yahoo shoping 《类 似 淘宝 网 的 电 商 网 站 ) 使 用 的 功能 是 商务 智能 分 析 〈BI) 和 机 器 学 习 推 
荐 系统 (ML)。 这 两 类 功能 面临 两 种 需要 处 理 的 数据 ， 一 类 ; en 点 击 和 观看 页 面 的 流量 数 
据 ， 另 一 类 是 交易 数据 。 传 统 方式 是 使 用 两 个 处 理 系统 分 别处 理 ， 如 图 10-7 和 图 10-8 所 示 。 


Filtered Data 
(HDFS) 
Data Mart 
Se 


10-7 传统 的 BI 系统 处 理 流程 


Traffic Report 
AdHoc Report 


Perform ance 
Report 
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Filtered Data 
(HDFS) 


Dy 
Lg 


Data Mart 
(Oracle) 
入 


10-8 传统 的 ML 系统 的 处 理 流程 


由 图 10-7 可 见 ， 传 统 的 BI 系统 过 滤 后 的 数据 一 般 是 从 分 布 式 存储 系统 (HDFS) 或 


\ 记 


Oracle 进 


模型 进行 


10.2.3 解决 方案 


在 针对 Yahoo! 提出 的 业务 需求 中 ， 为 了 能 让 读者 更 清楚 地 了 解 Spark 的 应 


过 Pig 编程 语言 或 SQL 语言 处 理 ， 得 到 分 析 报 告 和 即席 查询 报告 (AdHoc report)。 

由 图 10-8 可 知 传统 的 ML 系统 数据 经 过 ETL 过 程 聚 集 后 经 过 机 器 学 习 模型 得 到 符合 的 
分 析 预 测 。 
而 Yahoo! 面临 的 需求 是 希望 把 商务 智能 分 析 〈BI) 和 机 器 学 习 扒 


分 E 荐 系统 (ML ) 两 个 
功能 进行 整合 到 一 起 ， 同 时 需要 BI 工具 能 支持 ODBC。 


情况 ， 经 


过 两 种 对 比方 案 来 详细 讲解 ， 一 个 是 基于 Hive 方案 ， 一 个 是 基于 Spark 方案 。 两 种 方案 分 
别 如 图 10-9 和 10-10 所 示 。 
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- ML 
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图 10-9 ”Hive 作为 平台 


Data 


Platform 
(Hive) 


Traffic Data 


ML Model 
(HDFS) 


(Spark) 


Data(HDFS) 


Transaction BI Report 
Data(Oracle) 》 


MetaStroe 
(MySQL) 


图 10-10 ”Spark 应 用 架构 


从 图 10-9 和 图 
种 方案 都 将 ML 和 B 


10-10 可 以 清晰 地 看 到 在 Hive 平台 和 Spark 平台 的 数据 处 理 流程 ， 这 两 


I 功能 整合 到 了 一 起 。 


最 后 Yahoo! 选 择 了 Spark， 原 因 如 表 10-1 所 示 。 


表 10-1 Hive 与 Spark 应 用 平台 对 比分 析 


对 比 角度 Hive Shark( 类 似 Hive) 
Scale Y Y 
MSTR integration ODBC ODBC 
Speed OK Much Better 
ML Language integration Pig Spark 


从 上 表 的 对 比 可 以 看 出 ， 处 型 
上 的 处 理 速度 


快 。 


规模 都 是 一 致 的 ， 并 


都 是 支持 ODBC 的 。 在 处 理 
而 相对 于 Pig 和 Spark 来 说 ，Spatk 减少 了 HDFS 作为 中 


速度 


间 层 的 读 写 开销 ， 整 个 Spark 作业 只 需要 读 、 写 HDFS 各 一 次 ， 优 化 了 作业 的 运行 时 间 和 计 


算 成 本 。 
10.2.4 方案 效果 
Yahoo! 在 2013 


10.2.5 
根据 以 上 分 析 ， 


小 结 


年 第 四 季度 应 用 该 系统 之 后 ， 每 天 BI 报告 4 
ML 训练 的 速度 提升 7.5 倍 ， 可 以 看 到 Spark 3 
了 Spark 正 是 符合 Yahoo 需求 的 数据 处 理 平 台 。 


应 用 


Spark 后 不 仅 能 外 


MapReduce 大 量 的 磁盘 IO 操作 。 


10.3 本章 小 结 


本 章 我 们 从 电 商 领 域 和 手 ， 带 领 读 者 了 解 淘宝 和 
F 台 架构 、Spark 平台 的 应 


章 详细 介绍 了 淘宝 Spark 3 


站 成 BI 分 析 功 能 和 ML 训练 功能 ， 还 能 显著 提升 
BI 分 析 和 ML 训练 效率 。 相 对 于 Hadoop，Spark 更 适合 于 人 迭代 运算 比较 多 的 ML 和 DM 运 
算 ， 因 为 在 Spark 里 面 ， 有 RDD 的 概念 。RDD 可 以 cache 到 内 存 中 , 忆 
集 的 操作 之 后 的 结果 ， 都 可 以 存放 到 内 存 中 ， 下 一 个 操作 可 以 直接 从 内 存 中 输入 ， 省 去 了 


E 成 的 速度 有 很 大 的 提升 ， 
F 台 架构 显著 提升 业务 处 理性 能 ， 无 疑 也 证 明 


hb 么 每 次 对 RDD 数据 


Yahoo! 对 Spark 技术 的 应 用 实践 。 本 


用 流程 以 及 淘宝 世 


荐 系统 。 在 Yahoo! 


的 应 用 实践 中 ， 对 比 了 Hive 与 Spark 平台 上 的 Shark 的 应 用 ， 带 着 大 家 更 深入 的 理解 Spark 
认真 学 习 ， 理 解 Spark 的 设计 思想 。 


的 优势 。 希 望 大 家 能 
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第 11 章 电信 和 领域 


前 面 两 章 分 别 介 绍 了 Spark 在 广告 、 视 频 娱 乐 领域 和 电 商 领域 的 应 用 情况 。 但 是 随 
着 电信 数据 与 日 俱 增 ， 网络 安全 成 为 一 个 不 可 忽视 的 问题 。 如 何 通 过 大 数据 分 析 ， 预 防 
网 络 犯 罪 与 正确 检测 诊断 成 为 迫在眉睫 的 问题 。 但 是 随 着 犯罪 的 多 样 化 与 数据 分 析 技 术 
越 来 越 复杂 ， 架 构 已 经 演变 为 中 心 架构 服务 化 ， 并 提供 早期 预警 、 离 线 报告 、 趋 势 预 
测 、 决 策 文 持 和 可 视 化 的 大 数据 网 络 安全 分 析 预 警 策略 。 这 就 对 数据 分 析 平 台 有 了 更 高 
的 要 求 。 本 章 将 分 析 Telefonica 公司 在 解决 多 用 户 共享 使 用 业务 的 问题 时 ， 对 Spark 的 
一 个 应 用 情况 。 并 分 析 NTT DATA 公司 采用 了 Spark on YARN 架构 后 ， 该 架构 的 使 用 


11.1 Telefonica 应 用 Sark 和 Cassandra 方案 解决 多 用 户 事务 查询 


Telefonica 公司 采用 Stratio 提供 的 含有 Spark 的 数据 分 析 解 决 方案 来 构建 自身 的 网 络 安 
全 数据 分 析 栈 ， 将 使 用 的 大 数据 系统 缩减 了 一 半 ， 平 台 复 杂 性 降低 ， 同 时 处 理性 能 成 倍 提 
升 。 本 节 将 从 网 络 安全 入 手 ， 通 过 传统 的 安全 监测 方法 和 新 的 监测 方式 的 对 比 来 分 析 Spark 
的 应 用 情况 。 


11.1.1 公司 背景 特点 


Telefonica 为 西班牙 电话 公司 ， 该 公司 是 一 家 国际 电信 公司 ， 向 海内 外 顾客 提供 综合 
性 服务 ， 包 括 固定 通信 线路 、 移 动 电话 、 互 联网 、 数 据 和 有 线 电 视 等 。Telefonica 是 在 
班 牙 语 国家 和 葡萄 牙 语 国家 影响 重大 的 电信 公司 ， 潜 在 市 场 大 约 有 5.5 亿 顾 客 ， 其 中 的 6 
千 万 已 经 成 为 了 公司 的 客户 。 该 公司 是 西班牙 最 大 的 跨国 公司 ， 也 是 世界 上 最 大 的 电信 
公司 之 一 。 

Telefonica 为 40 多 个 国家 的 顾客 提供 服务 ， 开 设 的 分 公司 履 盖 到 了 拉丁 美洲 、 欧 洲 、 美 
国 、 非 洲 和 亚洲 。 


11.1.2 ”业务 需求 


公司 业务 涉及 互联 网 领域 ， 在 互联 网 环境 下 ， 网 络 安全 对 保护 客户 信息 ， 保 证 公司 
正常 运营 非常 重要 ， 常 见 的 网 络 安全 问题 包括 黑客 行为 、 网 络 犯罪 和 网 络 间谍 等 ， 安 全 
问题 的 时 效 性 很 如， 所 以 公司 需要 实时 地 监控 平台 以 实时 跟踪 监控 ， 保 护 公司 内 外 的 网 
络 安全 。 


随 着 数据 的 增长 ， 网 络 安全 问题 凸显 出 来 。 DDoS 攻击、SQL 注入 攻击 、 网 站 置换 、 账 
号 盗用 等 网 络 犯 罪 频繁 发 生 。 如 何 通 过 大 数据 分 析 ， 预 防 网 络 犯 罪 与 正确 检测 诊断 成 为 迫 在 
眉 睫 的 问题 。 传 统 的 应 对 方案 是 ， 采 用 中 心 化 的 数据 存储 ， 收 集 事 件 、 日 志和 和 警告 信息 ， 对 
数据 分 析 预 警 ， 并 对 用 户 行为 进行 审计 。 而 随 着 犯罪 多 样 化 与 数据 分 析 技 术 越 来 越 复 杂 ， 如 
何 更 加 有 效 地 解决 网 络 安全 问题 也 变 得 越 来 越 重 要 。 


11.1.3 解决 方案 


面 对 公 司 安全 需求 ， 传 统 方法 如 图 11-1 所 示 。 


SS 
Correlate 
~ Engine 


Normalize 


Centralize 
ee 


11-1 传统 消息 监测 方式 


由 图 11-1 看 出 ， 传 统 的 安全 监测 方式 是 基于 事件 发 生 ， 将 事件 进行 标准 化 分 析 关 联 ， 
分 析 事 件 是 否 是 异常 行为 ， 从 而 判断 是 否 响应 警告 ， 然 后 储存 警告 日 志 信 息 。 传 统 的 这 种 监 


测 方式 响应 方式 比较 慢 ， 越 来 越 达 不 到 他 们 的 要 求 。 
新 的 检测 方式 如 图 11-2 所 示 。 


页 


Process 
| ~ | oH me |] 
Access 


图 11-2 新 的 监测 方式 


新 的 监测 方式 原理 是 基于 上 下 文 、 行 为 动作 和 异常 情况 。 新 老 检 测 方式 对 比如 图 11-3 
所 示 ， 通 过 传统 监测 方式 和 新 的 监测 方式 对 比 ， 可 以 发 现 新 的 监测 方式 能 更 快 的 发 现 问题 ， 
从 而 尽早 做 出 对 策 ， 防 范 和 减少 损失 。 
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图 11-3 新 老 检 测 方法 的 对 比 


公司 根据 实时 的 要 求 ， 选 择 部 署 Spark， 原 因 有 如 下 几 点 。 

1) Spark 是 一 个 统一 的 平台 〈 兼 有 Spark、Spark SQL、Spark streaming)， 能 很 容易 地 
对 历史 数据 和 实时 数据 进行 查询 分 析 。 

2) 应 用 范围 多 样 和 对 多 种 数据 兼容 
实践 。 

3) 易于 使 用 的 接口 ， 能 用 SQL 语句 使 用 该 平台 的 强大 功能 

此 外 ， 应 用 Spark 能 使 相关 的 组 件 使 用 量 减少 ， 见 图 11-49 所 示 ， 使 平台 应 用 搭建 更 容 
易 ， 同 时 因为 连接 的 组 件 更 少 ， 能 明显 减少 出 错 的 机 率 。 


能 将 各 种 数据 集中 在 一 个 平台 并 能 应 对 各 种 应 用 


-> 


> 
Sm 
3 会 多 
HCatalog 人 hi 
ED 层 @ 


图 11-4 ”应 用 Hadoop 平台 的 相关 组 件 和 Spark 平台 的 相关 组 件 对 比 


3 Apache Kafka 


从 图 11-4 中 容易 看 出 ， 使 用 Spark 平台 使 用 的 组 件 相 对 要 少 50% 左 右 ， 这 样 程序 的 出 
错 率 也 能 相应 减少 。 

Telefonica 公 司 的 应 用 架构 如 图 11-5S 所 示 

由 图 11-5 可 以 看 出 ， 公 司 采用 Kafka 作为 消息 队列 订阅 和 分 发 消息 ， 使 用 Storm 来 实 
时 融合 各 种 渠道 的 数据 ， 采 用 Cassandra 储存 数据 和 Spark 来 批 处 理 数据 。 
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| Sources | 


4 | 用 21 
S||8||2 
= 己 三 
S 2] © 
ve nn tC 


。 数据 集成 ， 使 用 Kafka 
。 数 据 预 处 理 : 使 用 Storm 
。 批 处 理 : 使 用 “Cassandre+Spark” 


图 11-5 公司 的 生产 应 用 架构 


11.1.4 方案 效果 


Spark 对 机 器 学 习 和 图 计算 等 复杂 数据 分 析 应 对 自如 ， 二 者 组 合 能 够 应 对 常见 和 复杂 外 
数据 分 析 负 载 。Telefonica 公司 应 用 “Spark+Cassandra” 方 案 能 适用 于 多 用 户 事务 查询 处 理 
工作 ， 解 决 公司 所 面临 的 问题 。 而 传统 Hadoop 方法 不 支持 多 用 户 业 务 使 用 ， 所 以 采用 
“Spark+Cassandra” 方 案 来 解决 共享 使 用 业务 的 问题 。 


11.1.5 ”小结 


使 用 Spark 平台 不 仅 能 统一 架构 ， 减 少 组 件 使 用 ， 还 能 在 与 Cassandra 搭配 时 支持 多 用 
户 事务 ， 非 常 适合 电信 业务 、 金 融 业 务 、 日 志 监 控 等 工作 ， 故 Spark 在 电信 和 领域 的 作用 很 显 
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而 电信 运营 商 有 着 极其 丰富 的 数据 资源 的 天 然 优势 ， 因 此 基于 用 户 行为 分 析 、 行 为 理 
、 行 为 预测 的 客户 深度 洞察 ， 将 数据 封装 为 服务 形成 可 对 外 开放 、 可 商业 化 的 核心 能 力 从 
实现 商业 模式 的 创新 ， 一 直 是 运营 商 所 期 望 的 美好 蓝图 。 


引 葡 由 


11.2 NITDAIA 对 Spark On YARN 架构 各 项 性 能 测试 分 析 


上 节 主 要 介绍 了 西班牙 电信 公司 Telefonica 在 面 对 网 络 安全 方面 对 Spark 技术 的 应 用 。 
本 节 主 要 分 析 了 NTT DATA 公司 采用 了 Spark on YARN 架构 ， 并 进行 了 一 系列 的 对 比 测试 
来 检验 该 架构 的 效果 。 


11.2.1 公司 背景 特点 
本 NTT DATA 集团 是 NTT (日 本 电信 电话 株式 会 社 ) 集团 旗下 五 大 核心 集团 之 一 ， 


是 东京 证 交 所 上 市 公司 ， 日 本 信息 产业 协会 (JISA) 会 长 单位 。NTT 的 业务 涉及 软件 外 包 开 
发 、 系 统 集成 、 商 业 流 程 外 包 服 务 、 云 计算 服务 、 解 决 方案 提供 等 。 
11.2.2 ”业务 需求 
公司 面 对 各 项 业务 每 天 的 流入 数据 有 300 亿 条 (1TB),， 积累 的 数据 则 有 PB 级 别 。 面 对 
庞大 的 实时 数据 流入 和 积累 数据 ， 公 司 需要 有 处 理 能 力 达 到 高 吞吐 低 延 时 的 平台 架构 ， 不 仅 
如 此 ， 还 希望 该 架构 能 提供 丰富 API 用 来 进行 数据 分 析 。 
当然 公司 业务 还 需要 有 一 个 简单 的 管理 平台 ， 这 个 平台 能 同时 运行 不 同 框架 ， 这 样 能 减 
少见 余 和 环境 搭建 复杂 度 。 
11.2.3 解决 方案 


根据 需求 ， 公 司 采用 Spark On YARN 架 构 ， 架 构 如 图 11-6? 所 示 ， 并 进行 一 系列 对 比 测 
试 来 检验 该 架构 的 效果 。 


CC batch > 
MapReduce “i Ne 
Es Hive - “KC KVS/cache “> 
Flume, Fluentd C_ Messaging > Pig PY RR 
a Hadoop(YARN, HDFS) me 
外 部 服务 


RabbitMQ, Kafka 


on-memory mh D 
全 S x 
| We oD 


Storm 一 
一 -一 > Dataflow SparkStreaming es 外 部 服务 
可 视 化 服务 


图 11-6 NTTDATA 公司 采用 的 架构 


Spark 处 理 HDFS 上 的 数 
据 ， 同 时 还 和 其 他 的 
框架 运行 在 YARN 上 
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从 图 中 看 出 公司 应 用 的 是 Hadoop 生态 系统 “(Hive、Hbase、Pig) + Spark + Storm” 混 
合 架 构 来 应 对 离线 、 准 实时 和 实时 的 处 理 情 况 。 
下 面 我 们 将 从 表 11-19 中 的 4 个 方面 评估 该 平台 的 使 用 情况 。 


二 


表 11-1 Hive 与 Spark 应 用 平台 对 比分 析 


评 估 项 于 评价 的 应 
处 理 几 十 TB 的 数据 没有 性 能 的 下 降 WordCount 
JH 且 L > 下 机 SparkHdfsR 
ww 于 总 要 员 持 合理 的 已 
当 数 据 量 大 于 总 内 存 时 ， 可 以 保持 合理 的 性 能 (Logistic Regression) 
呈 党 1 和 人] 各 GroupByTest 
时 兄 桂 他 理 节 性 名 
处 理 数 万 TB 数据 ， 保 持 合理 的 Shuffle 性 能 (Laree shufile prodess) 
容易 实现 多 阶段 作业 POC of a certain project 


表 11-1 可 以 看 出 ， 平 台 将 从 应 对 大 数据 量 〈 几 十 TB 数据 ) 情况 、 数 据 量 比 总 有 
效 内 存 多 的 情况 和 大 数据 量 下 的 Shuffle 性 能 3 个 方面 进行 评估 。 集 群 的 硬件 和 软件 配置 
情况 如 图 11-7S 所 示 。 


The specification of the cluster NTTDaTa 
Total cluster size [一 
CPU E5-2620 6 core X 2 Socket 
。 4k+ Core Memory 6408 1.3GHz 
NW interface 106GBase-T x 2 port (bonding) 
10TB+ RAM Disk 3TB SATA 6Gb 7200rpm 
下 Ls 


10G NW 核心 交换 机 


Software stuck 


Spark 1.0.0 


HDFS & 
YARN(CDHS.0.1) 


CentOs6.5 


图 11-7 ”被 评估 系统 的 硬件 和 软件 配置 情况 


平台 整体 有 4000 以 上 的 核心 和 10TB 以 上 的 内 存 ， 系 统 是 CentOS 6.5， 使 用 Spark On 
YARN 架构 。 下 面 将 具体 分 析 每 个 评估 方法 的 效果 。 

1. 根据 WordCount 任务 对 数据 处 理性 能 评估 
民 据 输入 数据 为 27TB 的 处 理 时 间 如 下 图 11-89 所 示 。 
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700 我 们 发 现 即使 不 是 所 有 
Total heap size of executors | 数据 都 能 在 内 存 中 ， 也 


600] 能 保持 稳定 的 性 能 。 
一 S00T 
加 
三 400 
昌 3001 每 个 数据 集 都 测试 了 两 次 ， 
有 在 每 次 开始 运行 前 会 把 操作 
200 A 系统 中 的 缓存 清除 。 处 理 时 
ee | 间 与 数据 量 的 关系 接近 线性 
人 . 
0 


Input data size(TB) 
图 11-8 输入 数据 量 与 处 理 时 间 的 关系 
由 图 11-8 可 知 ， 即 使 不 是 所 有 数据 都 能 存在 内 存 中 ， 处 理 时 间 与 数据 量 的 关系 接近 线 


性 关系 ， 性 能 比较 合理 。 下 图 11-92 显 示 一 个 节点 处 理 过 程 中 的 CPU、NW 和 IO 的 消耗 情 
况 。 


Input data: 27TB 0 1 
80 
70 1 
[CPU Usage] 号 50 
blue: user 妆 40 
green: System 30 . 
20 | 

10 -一 
0 因为 是 本 地 化 运行 ， 1 

,100,000 所 以 网 络 带 宽 占用 
[Network usage] 去 75.000 较 小 ， 这 是 比较 理 1 | 
black: out 主 25,000 I ! 
0 hb .. 1 
1,000,000 | | 


[Disk I/O] 
black: read 
pink : write 


WA AAA | ee 


Blocks Read/Winte 
A - 
三 
全 


| map | reduce | 
(448s) (98s) 


图 11-9 处理 过 程 中 CPU、NW 和 IO 的 消耗 情况 


从 图 11-9 中 看 出 ， 在 CPU 执行 方面 ，CPU 使 用 率 在 65% 到 85% 区 间 浮 动 ， 说 明 CPU 
的 利用 情况 良好 ;在 网 络 方面 ， 因 为 是 本 地 执行 ， 故 网 络 带宽 占用 比较 小 ， 处 于 理想 状态 ; 
在 人 硬盘 IO 方面 ，map 阶段 硬盘 吞吐 量 比较 大 ， 花 费时 间 为 448 秒 ，reduce 阶段 相对 少 很 
多 ，98s。 
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总 之 ，WordCount 算法 的 处 到 
的 瓶颈 ， 


主要 因为 map 端 输 出 的 数据 量 比较 小 ; 


证 台 已 


性 能 主要 决定 于 map 端 


[各 已 


，reduce 端 不 大 可 能 成 为 处 理性 能 
此 外 当 数 据 量 超 过 内 存储 存 能 力 而 存 入 人 硬盘 


E 


时 ， 任 务 的 整体 处 理性 能 也 比较 合理 ， 大 吐 相 


CHE 


时 也 比较 稳定 。 


2. 根据 SparkHdfsLR 任务 的 评估 和 迭代 性 能 


单个 服务 器 可 用 内 存 为 26GB， 


每 台 服 务 器 的 可 用 内 存 (16 GB*3*0.6=26GB) 


我 们 用 递归 算法 循环 计算 三 次 ， 
每 次 循环 都 不 同 。 第 一 次 循环 
与 其 他 循环 的 处 理 时 间 差 别 主 
要 取决 于 缓存 数据 量 的 不 同 。 


同时 使 用 内 存 
和 硬盘 


3000 


2500 


2000 


Elapsed time(s) 


1500 
10| “缓存 效果 很 好 
73% 
s00 100% cached 
ached 
,| 村 = 国 国 加 
8GB 16GB 


随 着 输入 数据 的 增加 ， 处 到 


消耗 时 间 如 图 11-109 所 示 。 


即使 执行 器 不 能 装 下 
所 有 数据 ， 缓 存 的 效 
果 也 很 好 


16% 


Theoretical input data size(per server) 


图 11-10 输入 数据 


cached 
33% 出 cyclel 
cached 
图 cycle2 
周 cycle3 
24GB 40GB 
与 处 理 时 间 的 关系 


从 图 中 可 见 ， 用 递归 算法 计算 3 个 周期 ， 当 缓存 不 同 的 情况 下 处 理 时 间 各 不 相同 ， 第 一 


周期 的 时 间 普 遍 较 第 二 周期 和 第 三 周期 长 〈 因 
第 三 周期 的 运行 时 间 相 当 ( 从 内 存 读 取 数据 )。 
少 。 下 图 11-119 显 示 了 处 理 过 程 中 CPU、NW 笠 


8GB input per server 


[CPU Usage] 
blue: user 
green: system | 


wy 


[Network 
usage] 
red :in 
black: out 


所 轩 总 半 厂 兴 


缓存 机 制 能 防止 
数据 存 人 硬盘 


为 第 一 次 需要 从 硬盘 读 取 数 据 )， 第 二 周期 与 
绥 存 数据 百分比 越 大 ， 各 周期 消耗 时 间 越 
HIMO 的 消耗 情况 。 


16GB input per server 


部 分 数据 使 用 硬盘 ， 
因为 缓存 不 能 够 存 
_ 放 所 有 的 数据 。 


Am 一 
600sec 89sec 85sec 1229sec 316sec 297sec 
图 11-11 处 理 过 程 中 CPU、NW 和 IO 的 消耗 情况 
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由 图 11-11 中 看 到 每 个 服务 器 16GB 输入 的 IO 延迟 比 8GB 延迟 更 显著 ，8GB 的 输入 情 
况 下 缓存 机 制 能 防止 数据 存 入 硬盘 ，16GB 输入 情况 下 会 有 数据 占用 人 硬盘， 这 导致 WO 延 
迟 ， 导 致 时 间 开 销 增加 。 

总 之 ， 内 存 机 制 更 适用 于 迭代 算法 ， 当 输入 数据 大 于 可 用 内 存 时 ，RDD 缓存 机 制 一 臻 
性 工作 能 增加 吞吐 量 ;， 当 把 数据 存 到 RDD 中 时 最 小 化 包装 开销 是 很 重要 的 优化 策略 。 

3. 根据 GroupByTest 任务 评估 大 量 Shuffle 处 理性 能 

Shuffle 数据 量 与 处 理 时 间 的 关系 如 图 11-12 所 示 。 


Shuffle 数 据 溢出 到 


1 
3000 一 | 硬盘 时 ， 对 总 时 间 
1 | 没有 影响 
25007 4 
1 
1 a 了 - [5 
加 | 当 我 们 处 理 不 同 数据 
0 量 的 数据 时 ， 图 像 没 
= . 有 明显 的 梯度 变化 。 
15007 . 
于 1 
1000 二 
1 
1 
S00 1 i 
1 
Ln | 
112 3 $= 7 9 10 11 12 13 14 15 16 17 18 
I a shufne data size(TB) 


图 11-12 ”Shuffle 数据 量 与 处 理 时 间 的 关系 
从 图 中 看 出 ， 在 Shuffle 数据 量 不 断 增加 的 过 程 中 ， 当 Shuffle 的 数据 开始 溢出 到 硬盘 中 


后 ， 没 有 看 到 图 像 中 激烈 的 梯度 变化 ， 整 体 处 理 时 间 随 着 Shuffle 数据 量 的 增长 而 稳定 增 
长 。 不 同 Shuffle 模式 情况 下 的 测试 结果 如 图 11-13 所 示 。 


Job start 了 Job finish 
在 机 架 中 有 少量 Shufne 操 wm al 条 shuffle 阶段 
作 时 ， 没 有 数据 溢出 到 硬盘 ; yg “ 国 


shufne 阶段 


在 机 架 中 有 大 量 Shume 操 3 
作 时 ， 数 据 溢出 到 硬盘 i , ju 
在 集群 中 有 大 量 Shufme 操 : shufnle 阶段 
作 时 ， 因 CPU 切换 瓶颈 而 > ek 
出 现 问题 。 


图 11-13 不 同 Shuffle 模式 测试 下 网 络 资源 使 用 情况 


在 图 11-13 中 可 以 明显 看 到 硬盘 WO 和 网 络 带宽 瓶颈 的 出 现 ， 这 是 因为 在 运行 shuffle 测 
试 时 该 任务 的 map 任务 产生 了 大 量 输出 数据 。 说 明 大 量 Shuffle 在 机 架 内 时 ， 数 据 溢出 到 硬 
盘 ，CPU 占用 达到 100%， 数 据 吞 吐 仅 有 100~~200MBytes; 在 大 量 Shuffle 在 集群 中 时 ， 因 
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为 CPU 切换 瓶颈 ， 导 致 数据 吞吐 大 幅 下 降 。 

总 之 ， 在 Shuffle 输入 量 增加 时 ， 处 理 时 间接 近 线 性 增长 。 当 Shuffle 数据 溢出 到 硬盘 中 
后 ， 硬 盘 接 入 操作 会 在 Shuffle 相关 任务 间 竞 争 ， 如 shuffleMapTask (WRITE )、Fetcher 
(READ) 等 ， 这 个 竞争 会 影响 处 理性 能 。 

4. POC? 性 能 测试 

11-149 为 POC 流 程 图 。 


(1) Distribute+Sort 
(2) Compute 一 (3) Compute 


应 用 程序 上 的 每 个 计算 是 不 同 的 ， 
例如 计算 数据 记录 中 不 同 的 值 


(4—1) Group+Count 
(4-2) Group+Count 


不 同类 别 的 计算 


(S-1) Join+Group+Sum 
(5-2) Join+Group+Sum 


喇 


图 11-14 POC 流程 


图 11-14 中 所 示 为 一 个 实际 的 生产 测试 流程 ， 包 括 排序 、 计 算 、 连 接 和 分 组 求 和 操作 ， 
作业 的 任务 是 找到 Web 使 用 者 的 特性 。 


11.2.4 ”方案 效果 


通过 一 系列 测试 ， 一 方面 体现 Spark On YARN 在 不 同 数据 量 条 件 下 的 计算 性 能 ， 一 方 
面 对 Shuffle 在 不 同 应 用 场景 的 性 能 表现 进行 了 对 比 测试 分 析 ， 男 一 方面 还 对 cache 在 不 同 百 
分 比 情况 下 系统 处 理性 能 进行 了 分 析 ， 找 出 了 该 平台 架构 在 不 同 场景 下 的 应 用 情况 ， 为 调 优 
分 析 作为 参考 。 


11.2.5 小结 


总 体 来 说 ，Spark On YARN 解决 了 过 去 Hadoop 应 用 单一 、 人 处理 效率 较 低 的 问题 ， 但 该 架 
构 在 应 对 大 规模 数据 量 和 复杂 任务 的 时 候 会 出 现 因 为 内 存 不 够 、 网 络 带 宽 不 是 、 任 务 倾斜 和 硬 
盘 读 写 营 争 而 产生 的 一 系列 问题 ， 这 就 需要 程序 设计 人 员 进 一 步 优 化 系统 硬件 和 算法 结构 。 


11.3 本章 小 结 


本 章 主 要 带领 读者 了 解 了 电信 和 领域 Spark 技术 的 应 用 和 实践 ， 和 希望 读者 能 认真 学 习 ， 
握 好 Spark 的 基础 知识 ， 通 过 企业 中 Spark 的 应 用 实践 来 巩固 自己 之 前 所 学 的 知识 ， 并 能 型 
解 掌握 Spark 技术 应 该 如 何在 企业 的 大 型 应 用 中 发 挥 作用 。 理 解 Spark 技术 的 核心 思想 ， 
会 基于 Spark 搭建 企业 应 用 框架 ， 并 能 根据 实际 需求 进行 完善 优化 。 


骨 居 


N= 


入 下 


日 POC， 即 Proof of Concept， 是 业界 流行 的 针对 客户 具体 应 用 的 验证 性 测试 
图 11-14 引用 自 https://spark-summit.org/2014/ 
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第 12 章 零售 领域 


现 如 今 ， 随 着 Spark 技术 的 迅猛 发 展 ，Spark 在 国内 外 得 到 了 广泛 的 应 用 ， 它 正在 逐渐 
走向 成 熟 ， 并 在 各 个 领域 扮演 着 越 来 越 重要 的 角色 。 
零售 企业 面临 的 竞争 异常 严峻 ， 零 售 商 们 总 是 幻想 着 拥有 哈 利 - 波 特 魔杖 一 样 


J] I | 
能 帮助 公司 一 下 子 解决 所 有 问题 。 事 实 上 ， 这 样 能 够 快速 见效 的 捷径 并 不 存在 。 无 论 零售 
经 营 的 是 实体 店铺 业务 、 目 录 邮 购 业 务 还 是 电子 商务 网 站 ， 或 者 是 3 种 业务 的 结合 体 ， 服 
供应 商都 必须 为 顾客 提供 优质 的 解决 方案 ， 满 足 顾客 的 需求 。 现 代 人 都 惜 时 如 金 ， 零 售 企业 
必须 能 让 顾客 方便 地 找到 他 们 想 要 的 商品 ， 快 速 地 结账 和 离开 。 因 此 ， 零 售 领域 需要 一 种 强 
大 的 技术 来 支撑 其 发 展 ， 吸 引 更 多 消费 者 的 目光 。 

章 主 要 针对 Spark 在 零售 领域 方面 的 应 用 进行 分 析 ， 包 括 “Euclid Analysis 基于 Spark 
的 地 理 位 置 分 析 服 务 ” 以 及 “Graphflow 应 用 Spark MLlib 进行 实时 个 性 化 推荐 ”两 个 经 典 应 
] 案 例 ， 从 案例 背景 、 案 例 需 求 、 案 例 对 策 及 结果 四 大 方面 全 方位 解析 公司 对 Spark 技术 的 
应 用 ， 了 解 Spark 技术 为 零售 行业 带 来 的 好 处 。 


] 12.1 ”Fuclid Analysis 基于 $patk 的 地 理 位 置 分 析 服 务 


放眼 望 去 ， 目 前 市 面 上 存在 很 多 的 地 理 位 置 数据 分 析 公 司 ， 而 作为 一 家 这 样 的 公司 ， 要 
想 最 大 程度 地 发 挥 公司 的 内 在 价值 并 且 提 升 企 业 的 竞争 力 ， 就 必须 要 努力 做 到 实时 有 效 地 分 
析 数 据 ， 这 样 才能 为 客户 提供 精准 的 位 置 分 析 服 务 。 在 本 节 中 ， 将 要 介绍 Euclid Analysis 公 
司 运 用 Spark 技术 于 地 理 位 置 分 析 服 务 中 ， 为 客户 提供 满意 的 解决 方案 。 


12.1.1 公司 背景 特点 


Euclid Analysis 公司 是 一 家 基于 地 理 位 置 的 数据 分 析 公 司 ， 正 如 线 上 通过 Web 分 析 电 
商业 务 一 样 ，Euclid Analysis 通过 线 下 的 物理 信息 来 为 客户 提供 解决 方案 ， 公 司 对 使 用 数据 
来 促进 业务 增长 拥有 满腔 的 热情 。 
Euclid Analysis 公司 采用 了 很 多 先进 独特 的 技术 来 吸引 更 多 客户 的 关注 。 例 如 : 公司 基 
于 云 的 硬件 设备 ， 通 过 分 析 客 户 的 行为 来 帮助 零售 商 提升 线 下 的 销售 表现 ， 优 化 存储 性 能 ， 
并 了 解 客 户 行为 ; 公司 基于 物理 情景 的 客户 数据 分 析 ， 能 帮助 零售 商 采 取 更 明智 的 决策 ， 从 
而 吸引 和 留 住 更 多 的 顾客 。 
Euclid Analysis 公 司 的 理念 如 图 12-19 所 示 。 


次 下 


长 


@ 图 12-1 引用 自 http://euclidanalytics.com/about/careers/。 


数据 是 我 们 的 产品 , 所 bE i 


我 们 提倡 以 乐观 、 严 


说 的 态度 来 对 待 工作 
© 我 们 敢于 面 对 自 己 的 错误 
我 们 的 工作 环境 
是 轻松 愉快 的 


图 12-1 Euclid Analysis 公司 的 至 
我 们 从 上 面 的 图 中 可 以 看 到 ，Euclid Analysis 公司 的 核心 思想 是 把 数据 作为 自己 的 产品 。 
12.1.2 ”业务 需求 


Euclid Analysis 公司 的 主要 任务 是 为 客户 提供 精准 的 位 置 分 析 服 务 ， 将 收集 的 设备 数据 
作为 分 析 的 源 数 据 ， 从 而 了 解 访客 的 行为 、 购 物 模 式 和 存储 性 外 g 指 标 等 ， 利用 数据 科学 的 力 
量 为 公司 以 及 公司 的 客户 和 合作 伙伴 提供 服务 。 

根据 客户 的 访问 特点 ， 可 以 把 客户 分 为 以 下 儿 种 不 同 的 类 型 ， 如 图 12-29 所 示 。 


_ & 
© 

| 上 > .上 
经 常 访问 益 及 有 
参与 并 喜欢 购物 


我 们 以 客户 为 中 心 
来 发 展 自己 的 产品 


在 商店 里 停留 很 久 


路 过 访问 


入 从 
很 快 就 离开 商店 第 一 次 来 访 只 在 一 个 区 域内 浏览 


复 来 访 


图 12-2 客户 行为 模式 图 


从 图 12-2 中 可 以 看 到 ， 根 据 客户 的 访问 次 数 ， 可 以 把 客户 分 为 经 常 访问 的 、 路 过 来 访 
的 和 第 一 次 访问 的 ， 根据 客 户 在 店内 的 停留 时 间 ， 可 以 将 他 们 分 为 很 快 就 离开 和 在 店内 停留 
时 间 很 久 的 ， 还 可 以 看 出 ， 有 些 客 户 只 喜欢 在 一 个 范围 的 区 域内 浏览 商品 ， 有 的 客户 愿意 去 
花 钱 购买 一 些 商品 等 。 这 些 不 同类 型 的 顾客 造成 了 客户 的 多 样 性 和 未 知性 ， 给 公司 进一步 分 


@ 图 12-2 引用 自 http://euclidanalytics.com/solutions/。 
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析 和 了 解 客户 行为 带 来 了 一 定 的 挑战 。 

内 为 在 实际 的 物理 环境 中 客户 是 不 断 流动 和 变化 的 ， 所 以 公司 通过 Wi-Fi 设备 获取 到 的 
数据 需要 被 实时 分 析 和 预测 ， 否 则 将 会 变 成 过 期 和 失效 的 数据 ， 只 有 这 样 公司 才能 灵活 有 效 
地 采取 解决 方案 ， 从 而 提升 零售 店 的 销售 额 。 


12.1.3 解决 方案 


公司 的 业务 流程 具有 以 下 特性 。 
1) 量化 和 测量 零售 客户 的 行为 。 

2) 分 配 唯一 的 随机 ID 给 所 有 的 Wi-Fi 功能 设备 。 
3) 预测 顾客 的 持续 时 间 、 重 复 访客 等 。 

公司 整体 的 业务 流程 如 图 12-32 所 示 。 


access point cloud storage 


一 、 
一 a 
smart phc 


A ~ dashboard 


图 12-3 公司 整体 业务 流程 


由 图 12-3 可 以 看 出 ， 整 个 业务 流程 是 先 通过 Wi-Fi 传感器 获取 手机 在 查找 Wi-Fi 热点 
时 发 出 的 pings 信息 ， 然 后 将 信息 存 入 云端 ， 在 云端 分 析 处 理 之 后 再 在 Web 前 端 展示 ， 对 分 
析 结 果 进 行 预测 、 分 析 和 决策 建议 。 

下 面 ， 我 们 将 对 公司 业务 流程 的 每 个 工作 过 程 进 行 详细 的 说 明 。 

(1) 展示 客户 如 何 购物 

Euclid Analysis 识别 智能 手机 的 流量 如 何 通 过 空间 会 在 空间 停留 多 久 以 及 多 久 会 返回 。 

(2) 识别 智能 手机 匿名 的 Wi-Fi 信号 

当 智 能 手机 搜索 附近 的 Wi-Fi 网 络 时 会 发 送 短 的 pings 信息 ， 这 些 pings 信息 包括 手机 的 
MAC 地 址 〈 一 个 独特 的 字母 和 数字 串 ) 、 信 和 号 强度 和 其 他 非 个 人 可 识别 信息 等 。 

(3) 捕获 并 记录 这 些 Wi-Fi 信和 号 

Euclid Analysis 通过 使 用 现 有 的 Wi-Fi 基础 设施 或 简化 的 即 插 即 用 传感器 ， 来 记录 pings 
言 县 并 将 它们 发 送 到 基于 云 的 系统 。 为 了 保护 消费 者 的 隐私 ，Euclid Analysis 会 用 一 个 单 癌 
的 哈 希 算法 来 抢夺 每 个 MAC 地 址 。 

获取 到 的 数据 需要 进行 以 下 过 程 的 处 理 。 

1) 从 Wi-Fi 接 入 点 处 理 日 志文 件 。 

2) 获取 少量 的 设备 信息 。 

@ 唯一 的 卫 。 

@ 时 间 。 

@ 信和 号 强度 。 

3) 搜索 对 应 的 用 户 行为 模式 。 


G@ 图 12-3 引用 自 https://spark-summit.org/2014/。 
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4) 监视 这 些 趋势 。 


(4) 处 理 和 存储 数据 


公司 采用 高 级 探索 法 ， 从 亚马逊 高 度 安全 数据 中 心 的 数据 和 存储 结果 中 提取 可 操作 


的 见解 。 
(5) 通过 网 络 和 电子 邮件 提供 位 置 分 析 报 告 


Euclid Analysis 基于 网 络 仪 表盘 以 及 定期 的 电子 
和 方便 。 
为 了 吸引 更 多 的 顾客 ， 为 他 们 提 作 


更 好 的 月 


邮件 报告 ， 使 测量 和 优化 业务 更 加 简单 


昌 户 体验 ， 测 量 每 个 位 置 是 如 何 成 功 地 吸引 和 


留 住 客户 的 ，Euclid Analysis 公司 提供 了 完整 的 数据 访问 和 定制 分 析 服 务 ， 以 提高 销售 额 和 
利润 。 
从 上 面 的 业务 流程 工作 过 程 中 ， 可 以 知道 Wi-Fi 传感器 获得 的 手机 发 出 的 信息 包括 独 一 
无 二 的 卫 〈 每 个 设备 都 分 配 一 个 独 有 的 ) 、 信 和 号 强度 和 时 间 信 息 ， 然 后 根据 信息 与 云端 数 
据 模 型 对 比 匹 配 ， 找 出 相似 的 用 户 行为 匹配 项 ， 再 进一步 监控 其 趋势 。 
Euclid Analysis 公司 最 终 选择 采用 Spark 平台 ， 原 因 主 要 有 以 下 几 点 。 
1) 代码 集成 度 高 。 
2) Scala 的 函数 式 编程 。 
3) 支持 可 扩展 的 机 器 学 习 项 目 。 
4) 支持 迭代 式 算法 和 复杂 的 流 数据 。 
12.1.4 方案 效果 
Euclid Analysis 公 司 应 用 Spark 平 台 后 取得 了 显著 的 效果 ， 有 关 旧 金山 客户 进 店 持续 时 间 
的 百分比 如 图 12-49 所 示 。 
8.8% 
41+min 22.1% 
9.6% Ta 0 一 10min 
yd ey “4 
et l 
N36.9% 
11~20min 
图 12-4 客户 进 店 持续 时 间 百 分 比 


[HH 
La 


从 图 12-4 中 可 以 看 出 ，37% 的 顾客 进 店 可 以 持续 


10min 的 访问 ，40% 以 上 的 顾客 会 持 


续 20min 以 J 
间 为 22min。 


的 访问 ， 而 其 余 客 户 停留 时 间 比 较 得 ， 上 只 有 短 短 的 几 分 钟 ， 顾 客 的 平均 停留 时 


总 之 ， 客 户 在 店内 的 停留 时 间 还 是 比较 长 的 ， 这 有 利于 


行为 ， 为 客户 提供 满意 的 解决 方案 。 


图 12-4 引用 咎 


http://euclidanalytics.com/products/advanced/。 


六 公司 进一步 分 析 客 户 的 
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分 析 完 客户 的 持续 访问 时 间 后 ， 接 下 来 看 旧金山 客户 进 店 后 活动 范围 的 百分比 图 ， 如 
图 12-59 所 示 。 


图 12-5 客户 进 店 后 活动 范围 百分比 图 


由 图 12-5 可 以 看 到 有 80% 的 客户 在 一 层 进 行 活动 ， 有 一 半 的 顾客 会 选择 去 二 层 浏览 商 
品 ; 而 剩余 的 一 小 部 分 客户 则 会 去 到 三 层 。 可 见 ， 大 部 分 顾客 还 是 偏向 于 在 楼 层 较 低 的 区 域 
内 活动 。 

看 完 Spark 平 台 给 公司 带 来 的 显著 成 效 后 ， 下 面 来 了 解 一 下 Spark 技 术 给 Euclid Analysis 公 
司 带 来 的 定制 化 应 用 服务 。Euclid Analysis 公 司 结合 了 客户 行为 、 地 点 和 交易 数据 ， 通 过 数 
据 分 析 给 零售 商 带 来 了 前 所 未 有 的 可 视 化 购买 路 径 ， 提 供 了 丰富 的 应 用 实践 ， 如 图 12-6S 所 


计划 购物 


图 12-6 定制 化 的 应 用 服务 


Euclid Analysis 拥有 定制 的 零售 分 析 解 决 方案 ， 以 适应 不 同 的 用 户 ，Spark 平台 通过 结合 
历史 数据 分 析 、 实 时 数据 分 析 以 及 机 器 学 习 功 能 ， 为 公司 的 行政 、 营 销 、 运 营 和 IT 服务 提 
供 了 强 有 力 的 支持 。 


12.1.5 ”小结 


Spark 平台 框架 独特 的 基于 内 存 式 计算 以 及 兼容 文 持 机 器 学 习 、 图 计算 和 流 处 理 等 特 
点 ， 能 让 Euclid Analysis 公司 发 挥 自 身 最 大 的 服务 功能 ， 深 入 了 解 客户 的 行为 特征 ， 为 客户 
提供 有 效 的 解决 方案 ， 提 升 公司 的 竞争 力 ， 从 而 吸引 和 留 住 更 多 的 顾客 。 


12.2 ”Graphilow 应 用 Sark MLlib 进行 实时 个 性 化 推荐 


现在 ， 有 越 来 越 多 的 人 加 入 到 网 购 这 个 大 家 族 中 来 ， 然 而 网 店 如 何 才 能 吸引 更 多 的 顾 
客 ， 得 到 长 期 稳定 的 发 展 呢 ? 答案 是 ， 一 个 网 店 实时 精准 的 推荐 功能 能 够 提升 客户 的 消费 体 


@ 日 图 12-5 引 自 于 http://euclidanalytics.com/products/advanced/。 
日 图 12-6 引 自 于 https://spark-summit.org/2014/。 


250 


验 ， 提 高 网 店 的 收入 。 在 本 节 中 ， 将 介绍 Graphflow 公司 把 Spark MLlib 技术 应 用 于 网 店 的 
运作 中 ， 为 客户 提供 实时 的 个 性 化 推荐 服务 。 


12.2.1 公司 背景 特点 


Graphflow 公司 是 一 家 成 立 于 2013 年 的 南非 的 初创 公司 ， 公 司 受 到 了 “顾客 的 偏好 应 该 
推动 他 们 自己 的 零售 体验 ”这 样 一 个 简单 想法 的 启发 ， 最 终 的 目标 是 为 客户 创造 一 个 无 颖 的 
“流量 ”， 比 如 这 些 流量 可 以 从 一 组 相关 的 内 容 转 移 到 男 一 组 中 去 ， 实 现 无 颖 对 接 。 

Graphflow 公司 希望 为 每 一 位 客户 创造 精简 、 直 观 的 体验 ， 并 提供 最 个 性 化 的 建议 ， 致 
力 于 使 用 机 器 学 习 技术 和 大 数据 技术 来 提供 实时 推荐 和 客户 智能 分 析 。 通 过 为 网 店 提 供 简 
单 、 功 能 强大 的 分 析 工 具 从 而 提升 网 店 的 收入 ， 这 些 工具 的 主要 功能 是 为 网 店 客户 推荐 最 相 
关 的 内 容 以 及 为 店主 提供 客户 的 行为 分 析 ， 从 而 达到 销售 的 提升 。 

Graphflow 公司 对 小 企业 也 充满 热情 ， 并 且 相 信和 即使 是 小 的 商店 也 应 该 使 用 同样 的 技 
术 。 这 就 是 为 什么 公司 创建 了 一 个 工具 ， 并 让 这 些小 企业 通过 机 器 学 习 以 及 大 数据 技术 的 力 
量 来 获得 欧 争 的 优势 。 

Graphflow 公 司 的 核心 成 果 如 图 12-79 所 示 。 


Flow Jack Smith | 


SuperConnect Radio Reve 
相似 产品 


sm > i 从 医 用 Se” 国 


图 12-7 Graphflow 核心 成 果 


从 图 中 可 以 看 出 ，Graphflow 公司 可 以 通过 对 客户 的 行为 分 析 ， 为 顾客 推荐 他 们 需要 
的 各 种 不 同 的 商品 ， 例 如 墨镜 、 鞋 、 衣 服 、 食 品 、 电 子 产品 等 ， 极 大 地 提升 了 客户 的 消费 
体验 。 


12.2.2 ”业务 需求 


Graphflow 公司 具体 的 业务 需求 如 下 。 


G@ 图 12-7 引 自 于 http://graphflow.com/。 
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1) 提高 每 个 ) 


户 的 平均 文 出 。 通 过 确定 每 个 用 户 选择 的 商品 ， 将 有 更 


荐 相关 产品 。 另 外 ， 还 可 以 跟踪 用 户 是 否 购买 了 公司 推荐 的 这 些 商品 。 


2) 获得 用 户 的 行为 并 进行 存储 分 析 。 通 过 分 析 每 个 商店 中 电子 商务 的 


情 准 地 回 他 们 推 


提供 一 个 深入 了 解 产 


品 和 用 户 之 间 关 键 性 的 相互 作用 的 机 会 。 


人体 行为 ， 可 以 


3) 真正 与 用 户 建立 联系 。 不 要 用 无 关 的 信息 去 玻 炸 用 户 (电子 邮件 、 广 告 〉。 


4) 通过 实时 建 模 ， 提 供 快速 建议 。 


为 了 实现 这 些 业务 需求 ，Graphflow 公司 的 任务 是 连接 用 户 的 相关 产品 ， 在 几 分 钟 内 可 
以 开始 为 用 户 在 合适 的 时 间 内 推荐 合适 的 产品 。 它 的 机 器 智能 服务 工作 ， 能 确保 用 户 获得 独 


特 的 、 相 关 的 网 络 购物 体验 。 


公司 灵活 的 集成 平台 可 以 向 PC 端 、 移 动 端 提供 实时 和 个 性 化 的 推荐 。 该 平台 通过 在 整 
体 上 捕捉 人 与 物 的 交互 关系 ， 提 供 网 店 用 户 的 行为 分 析 及 商品 表现 分 析 ， 从 而 精准 推荐 ， 提 


高 网 店 收益 。 
12.2.3 ”解决 方案 


Graphflow 公司 的 业务 平台 流程 如 图 12-8 所 示 。 


Client 


User 
Behaviour 


Prsonal 
User 
Experience 


效益 的 目的 。 


那么 Graphflow 公司 为 什么 会 选择 Spark 作为 大 数据 分 析 平 台 呢 ? 原 


几 点 。 


Graphflow 


Personal 
Email 
Campaign 


图 12-8 ”Graphflow 平台 工作 流程 


Analytics Engine 


Data 
Storage& 
Sr ND | Modelling 


Packaged 
Analytics 


1 
a Custom Custom 
SP 
APIs Analytics 


由 图 12-8 可 知 ， 平 台 先 收集 网 店 用 户 的 行为 数据 ， 并 对 这 些 数据 进行 后 台 分 析 ， 再 通 
过 网 络 、E-mail 和 公开 的 API 推荐 相 匹 配 的 物品 ， 提 升 客户 的 消费 体验 ， 最 终 达 到 提升 网 店 


1) 基于 内 存 计 算 ， 计 算 更 快 。 
2) 支持 Python API 和 SQL 语言 分 析 。 
3) 拥有 Spark streaming 流 处 理 框架 。 
4) 支持 MLlib， 适 合 机 器 学 习 。 


Spark 平台 架构 的 实现 如 图 12-9 所 示 。 
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内 主要 有 以 下 
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图 12-9 ”Spark 平台 架构 实现 
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从 上 面 的 Spark 平台 架构 实现 图 中 可 以 看 到 公司 采用 了 模型 服务 器 。Graphflow 公司 对 
使 用 的 模型 服务 器 的 具体 要 求 如 下 。 

1) 能 为 100 一 1000 个 并 行 模型 服务 。 

2) 可 以 快速 和 横向 扩展 。 

3) 拥有 许多 小 模型 。 

4) 拥有 一 些 非常 大 的 模型 〈 数 以 百 万 计 的 用 户 或 项 目 )。 

5) 具有 容错 性 。 

公司 使 用 的 模型 服务 器 处 理 过 程 如 图 12-10 所 示 。 


_------ ElasticSearch 
| so | Model Server 


图 12-10 ”模型 服务 器 处 理 过 程 


从 图 中 可 以 看 出 ， 处 理 过 程 从 ElasticSearch 端 发 出 的 搜索 开始 ， 然 后 向 Spark 发 出 计算 
任务 请 求 ，Spark 向 S3〈 类 似 HDFS 的 分 布 式 文件 系统 ) 发 出 数据 请 求 ，S3 向 Model Server 
发 出 数据 模型 请 求 。 


12.2.4 “方案 效果 


为 了 测试 Spark 模 型 与 一 些 其 他 模型 对 数据 处 理 效 率 的 差别 ， 这 里 使 用 了 Mahout 库 、 
Spark 自 定 义 库 以 及 Spark MLlib 库 运用 ALS 〈 交 蔡 最 小 二 乘法 ) ， 对 MovieLensS2lm 数 据 集 
进行 计算 ， 得 到 的 结果 如 表 12-1 所 示 。 


〇 MovieLens 是 由 美国 Minnesota 大 学 GroupLens 项 目 组 创办 的 商业 性 质 推 荐 系统 。 
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表 12-1 不 同 模型 的 计算 结果 


Model Mahout 0.8 ALS Spark Custom ALS MLlib ALS 
Runtime 6m39s 58s 24.8s 
Lines of Code 1374+137+121+116=-1750 -425 -880 
由 表 12-1 可 以 看 出 ， 使 用 Mahout 库 时 需要 将 近 400s 的 计算 时 间 ， 使 用 Spark 自 定义 
库 时 需要 58s 的 计算 时 间 ， 而 使 用 Spark MLlib 库 时 只 需要 大 约 24.8s 的 计算 时 间 。 由 此 可 
见 ， 使 用 Spark 自 定义 算法 和 使 用 Spark MLlib 算法 的 运算 时 间 都 比 使 用 Mahout 算法 的 运算 
时 间 高 一 个 数量 级 。 同 时 ， 使 用 Spark MLlib 算法 库 的 运行 时 间 是 使 用 Spark 自 定义 算法 运 


行 时 间 的 一 半 ，Spark MLlib 算 
上 面 的 这 些 结论 说 明 ， 使 用 


法 的 运算 速度 占 明 显 的 优势 。 
Spark 技术 能 更 好 地 处 型 


计算 时 间 ， 提 高 系统 的 工作 效率 ， 进 一 步 改 善 系统 性 能 。 


12.2.5 小结 


Spark 作为 在 近 些 年 内 被 广泛 使 


总 之 ，Spark 平台 架构 的 性 能 要 明显 优 于 传统 Hadoop 4 


展 ，Spark 的 流 处 理 技术 将 会 对 在 线 模型 进行 更 新 和 聚合 ， 


j 的 技术 ， 在 不 和 久 的 将 来 会 推出 更 为 复杂 
不 同类 型 的 预测 模型 以 及 更 复杂 的 计算 密集 型 集成 报告 和 见解 。 


机 器 学 习 的 相关 业务 ， 节 省 数据 的 


随 着 Spark 社区 的 不 断 发 


Spark 技术 ，Graphflow 公司 可 以 更 加 实时 方便 地 为 每 一 位 客户 创造 更 精简 、 直 观 的 消费 


验 ， 和 其 提供 个 性 化 的 建议 ， 
优势 。 


] 12.3 ”本 章 小 结 


相关 功能 


定 会 越 来 越 完 善 、 越 

E 态 系统 的 相关 架构 ， 通 过 使 用 
本 

获得 竞争 


促使 顾客 购买 更 多 的 商品 ， 从 而 提高 网 店 的 收益 ， 


在 本 章 中 ， 我 们 从 公司 的 背景 特点 、 业 务 需 求 、 解 决 方案 、 方 案 效果 等 方面 介绍 了 


“Euclid Analysis 基 呈 


Spark 的 地 理 位 置 分 析 服 务 ” 以 及 “Graphflow 应 


时 个 性 化 推荐 ”两 个 零售 领域 的 经 典 


j Spark MLlib 进行 实 


应 


加 深入 透彻 地 了 解 Spark 技术 的 优点 ， 例 如 超 


j 案 例 。 通 过 对 这 些 案例 全 面 地 分 析 ， 能 帮助 读者 更 


Scala、 


数据 、 拥 有 活跃 的 用 户 社区 等 。 这 些 显著 的 优点 


题 ， 满 足 客户 的 需求 ， 从 而 吸引 更 多 消费 者 的 目 》 


争 环境 下 得 到 长 期 稳定 地 发 展 。 
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央 速 处 理 数据 、 


支持 多 语言 编程 〈Java、 


Python)、 支 持 复杂 查询 、 可 以 处 理 实时 流 数据 、 能 够 集成 Hadoop 和 已 有 的 Hadoop 
能 帮助 零售 行业 快速 有 效 地 解决 客户 的 问 
4， 使 零售 商 获 得 更 高 的 收益 ， 在 激烈 的 竞 


Spark 技术 出 现 的 时 间 并 不 长 ， 但 它 却 如 雨后春笋 般 迅 速 发 
据 统计 分 析 、 数 据 挖掘 、 


于 它 可 


第 13 


章 


其 他 领域 


以 轻松 应 对 数 


不 可 挡 


除了 之 前 几 半 提 到 
些 其 他 的 领域 也 都 发 挥 着 举 忠 轻 习 
案例 ， 例 如 Spark 技术 在 私家 车 搭乘 服务 和 广告 有 


典型 应 月 


等 ， 而 且 部 署 简单 ， 


o 


认识 Spark 技术 的 重要 影响 。 


] 13.1 ”er 基于 Waik 的 私家 车 搭乘 服务 


近 些 年 


本 小 节 将 要 介 纤 


因此 被 越 来 越 多 


的 视频 娱乐 领域 、E 


， 国 内 打车 应 用 的 发 


展 势 头 迅 独 ， 月 


Uber 公司 应 


家 车 搭乘 服务 。 


约 ” 


很 好 地 解 六 


是 针对 出 租车 服务 的 打车 软件 ， 


] 


旦 存在 很 


流 处 理 、 
的 行业 领域 所 使 用 ，S 


名 


技术 、 


展 壮 大 。 这 一 切 都 归功 


机 器 学 习 、 误 差 查 询 


park 技术 未 来 的 发 展 必然 势 


已 商 领 域 、 电 信和 领域 以 及 零 
芭 的 作用 。 本 章节 中 将 全 面 


日 户 数 不 断 攀升 ， 打 车 软件 的 竞争 格局 也 随 着 
行业 的 升温 而 愈演愈烈 ， 如 何在 行业 竞争 中 异军突起 占 得 优势 也 是 大 家 非常 专注 的 问题 。 在 
j Spark 技术 实现 Sqoop 数据 摄取 ， 为 客户 提供 便捷 优质 的 私 


目前 市 面 上 已 经 存在 很 多 不 同类 型 的 打车 软件 ， 例 如 滴 滴 打车 、 快 的 打车 等 ， 
多 缺点 ， 例 如 等 待 时 间 过 长 、 各 种 “临时 更 


领域 外 ，Spark 在 一 


解析 Spark 技术 在 其 他 领域 中 的 
有 务 中 的 应 用 ， 以 


ND 
少 


帮助 我 们 进 


昌 它 们 大 


6 普遍 青 上 


首先 来 了 解 一 下 Uber 公司 的 背景 和 特点 。Uber 公司 是 一 个 按 需 月 


O20 就 


区 别 于 本 土 打 


是 线 上 到 线 下 (Online to Offline)。 
] 户 连接 起 来 。 


验 ， 致 力 于 让 客户 享受 到 快捷 、 


搭乘 服务 。 


Uber 打 车 具体 的 接生 


流程 如 


图 13-1 引 


高 峰 时 段 出 租车 供应 不 足 、 乘 坐 体验 差 、 付 款 方式 烦琐 不 便 等 。 而 Uber 打车 的 出 现 却 
了 以 上 问题 ， 受 收 到 了 消费 者 


有 务 的 020 网 站 ， 所 谓 


高 品质 的 


图 13-1S 所 示 。 


党 乘 服务 ， 


网 站 以 最 简单 的 方式 ， 用 互 
车 App 的 热潮 ，Uber 清 中 


提供 的 是 


种 更 


联网 将 聚 华 轿 车 司机 与 


f 定 位 在 中 国 高 端 市 场 ， 注 重用 户 体 


加 优质 、 个 性 的 私家 车 


于 http://www.100toutiao.com/index.php?m=Index&a=show&cat=2&id=33373。 


订 车 乘 车 付款 
解决 方式 服务 至 上 
司机 信息 + 等 待 时 间 十 车 型 ”水 Wi-Fi 充电 无 需 现 金 交 易 


图 13-1 Uber 接 单 流程 图 


每 一 个 有 需求 的 用 户 通过 iPhone、Android 等 移动 设备 向 Uber 发 送 请 求 ， 从 而 找到 自 
己 的 私人 司机 ， 进 而 再 购买 私家 车 搭乘 服务 。 用 户 通 过 GPS 追踪 定位 私家 车 ， 然 后 使 用 
Uber 发 出 打车 请 求 ， 几 分 钟 内 一 辆 私家 车 就 会 开 到 面前 ， 用 户 可 以 通过 现金 支付 或 信用 卡 

目前 该 服务 已 经 在 美国 旧金山 得 到 了 很 好 的 推广 ， 预 计 接 下 来 会 在 众多 其 他 的 城市 展 
开 。 虽 然 Uber 打车 的 费用 比 出 租车 要 高 一 半 ， 但 其 舒适 度 和 快捷 却 是 出 租车 无 法 比拟 的 ， 
出 租车 行业 势必 将 要 迎接 来 自 Uber 的 挑战 。 


13.1.2 ”业务 需求 
了 解 完 Uber 公 司 的 背景 和 特点 后 ， 下 面 一 起 来 看 看 Uber 打 车 的 业务 模式 ， 如 图 13-29 所 


图 13-2 Uber 业务 模式 


从 上 图 中 可 以 看 到 ， 司 机 和 用 户 通 过 Uber 联系 了 起 来 ， 用 户 发 送 用 车 需求 给 Uber 
App， 接 着 Uber App 将 用 户 需求 派发 给 附近 的 司机 ， 司 机 接 单 、 联 系 乘 客 ， 为 客户 提供 服 
务 。 在 整个 过 程 中 Uber 使 用 P2P 模式 连接 了 乘客 与 司机 两 端 ， 在 GPS 定位 技术 文 持 下 进行 
实时 监控 和 数据 挖掘 。 

面 对 打 车 应 用 行业 竞争 的 愈演愈烈 ，Uber 公司 要 想 在 如 此 竞争 激烈 的 市 场 环 境 中 屹立 
不 倒 ， 就 必须 实时 准确 地 处 理 客户 的 请 求 信息 。 在 客户 发 出 乘 车 请 求 时 ， 能 够 实时 地 接收 到 
乘 车 请 求 信 息 ， 并 快速 地 做 出 响应 ， 出 现在 顾客 身边 ， 为 他 们 提供 优质 的 搭乘 服务 ， 从 而 提 
升 用 户 体验 ， 获 得 竞争 的 优势 。 


G@ 网 13-2 引 自 于 http:/www.100toutiao.com/index.php?m=Index&a=show&cat=2&id=33373。 
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13.1.3 ”解决 方案 


为 了 实现 业务 需求 ，Uber 公司 使 用 S 
下 有 关 Sqoop 工具 的 相关 内 容 。 


Sqoop 是 一 个 用 来 将 Hadoop 和 关系 型 数据 库 中 上 


系 型 数据 库 〈 如 SQL、Oracle、Postgres 等 
HDFS 的 数据 导 进 到 关系 型 数据 库 中 。 


之 前 版 本 的 Sqoop 工具 在 进行 数据 摄取 时 ， 遇 


1) 非 SQL 的 数据 源 。 
2) 消息 系统 作为 数据 源 。 
3) 多 级 管道 。 


qoop 工具 进行 数据 的 传递 ， 先 带 读 者 简单 了 解 一 


的 数据 相互 转移 的 工具 ， 可 以 将 一 


不 关 


等 ) 中 的 数据 导 进 到 Hadoop 的 HDFS 中 ， 也 可 以 将 


这 些 问题 的 出 现 使 数据 摄取 过 程 无 法 ) 
如 图 13-3 所 示 。 


区 二 


到 了 以 下 几 个 问题 。 


顺利 进行 ， 需 要 进 


图 13-3 


从 图 13-3 可 以 看 出 ， 目 前 的 Sqoop 了 


Sqoop 数据 摄取 


步 改 进 。 改 进 后 的 Sqoop 


[其 可 以 实现 使 一 般 的 的 数据 传输 服务 从 任何 来 源 


到 任何 目标 。 例 如 从 MYSQL 到 KAFKA、 从 HDFS 到 MONGO、 从 FTP 到 HDFS、 从 


KAFKA 到 MEMSQL 等 。 
Sqoop 连接 器 API 如 图 13-4 所 示 。 


图 13-4 


由 图 13-4 可 以 看 出 ，Sqoop 连接 器 


Sqoop 连接 器 API 


API 没有 转换 阶段 ， 


隔 、 抽 取 、 加 载 这 些 步骤 ， 传 输 到 了 目标 端 


人 jo 


它 直 接 将 数据 从 源 端 


出 经 过 分 


Uber 公司 使 用 Sqoop 工具 进行 数据 传递 时 是 基于 Spark 技术 的 ， 为 什么 要 选择 Spark 技 


术 呢 ?原因 如 下 。 
1) MapReduce 速度 绥 慢 。 


2) 需要 连接 器 API 去 支持 转换 ， 而 不 仅仅 是 EL。 


3) 可 插 拔 的 执行 引擎 
4) Spark 社区 数量 的 不 断 增长。 
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5) 使 用 方便 。 

6) 同时 支持 批 处 理 、SparkSQL 以 及 机 器 学 习 。 

Sqoop 在 Spark 上 工作 时 ， 主 要 做 3 件 事 : 创建 作业 、 作 业 提 交 、 作 业 执 行 。 

(1) Sqoop Job API 的 工作 流程 

1) 创建 Sqoop 作业 。 

@ 创建 源 端 和 终端 的 作业 配置 。 

@ 对 源 端 和 终端 的 配置 创建 作业 联系 。 

2) SparkContext 持 有 Sqoop 作业 。 

3) 调用 SqoopSparkJob.execute 〈conf, context) 方法 。 

(2) Spark 作业 提交 

1) 在 过 程 中 调用 Spark 和 Sqoop 服务 器 来 执行 这 项 作业 。 

2) 使 用 远程 的 Spark Context 去 提交 。 

3) Sqoop 作业 作为 Spark 提交 命令 的 驱动 。 

4) 构建 uber.jar 以 及 所 有 Sqoop 的 依赖 。 

5) 以 编程 方式 使 用 Spark YARN Client， 或 直接 通过 命令 行 提交 驱动 程序 到 YARN 
Client。 

(3) Spark 作业 执行 过 程 如 图 13-5 所 示 。 


时 je 
门 ] .map() [| sy oy 

间 问 人间 辣 
和 


Repartition Load 
to limit into HDFS 
Compute Partitons Extract from 
MySQL 


files on HDFS 


图 13-5 ”Spark 作业 执行 过 程 


从 图 13-5 中 可 以 看 出 ，Spark 在 执行 作业 时 首先 计算 分 区 ， 调 用 map0 方 法 从 MySQL 
中 提取 数据 ， 接 着 调用 repartition0 方 法 在 HDFS 中 再 分 配 限制 文件 ， 最 后 调用 mapPartition() 
方法 将 数据 加 载 到 HDFS 中 。 


13.1.4 方案 效果 

为 了 检验 采用 Spark 技术 后 会 给 Uber 公司 带 来 哪些 改变 ， 下 面 进行 了 以 下 几 个 测试 。 

1) 当 把 数据 从 MySQL 传 输 到 HDFS 上 时 ， 随 着 加 载 器 数量 而 增加 ，Spark 和 MRV2 下 数 
据 传输 时 间 如 图 13-6S 所 示 。 


G@ 图 13-6 引 自 于 https://spark-summit.org/2015/。 
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图 13-6 Spark 和 MRYV2 数据 传输 时 间 对 比 


从 上 图 中 可 以 看 到 ， 随 着 横 轴 加 载 器 数量 的 增加 ， 纵 轴 Spark 下 的 数据 传输 时 间 ， 刚 开 
台 稳 定 在 25s 左右 ， 接 着 逐渐 上 升 到 60s， 最 后 基本 维持 在 60s 左右 ; 而 纵 轴 在 MRV2 下 的 
数据 传输 时 间 ， 从 180s 逐渐 下 降 到 65s， 然 后 又 缓慢 上 升 到 80s。 但 是 ， 在 MRV2 下 所 花费 
的 时 间 一 直 都 比 在 Spark 下 花费 的 时 间 多 ， 而 且 当 Extractor 数量 增 大 很 多 的 情况 下 ，Spark 
平台 依然 表现 出 色 ， 传 输 时 间 增 加 缓慢 。 

2) 表 记 录 为 2.8M 时 在 Spark 和 MRV2 下 数据 传输 时 间 如 图 13-79 所 示 。 
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图 13-7 2.8M 表 记 录 下 Spark 和 MRYV2 数据 传输 时 间 对 比 


由 图 13-7 可 以 看 出 ， 随 着 横 轴 加 载 器 数量 的 增加 ， 应 用 Spark 时 ， 纵 轴 的 数据 传输 时 
间 始 终 稳 定 在 15s 左右 :而 应 用 MRV2 时 ， 纵 轴 的 数据 传输 时 间 先 从 40s 逐渐 下 降 到 20s， 
再 从 20s 开始 缓慢 上 升 到 25s， 花 费 的 时 间 始 终 大 于 Spark。 

由 此 可 见 ， 使 用 Spark 技术 可 以 实现 民 好 的 分 区 ， 达 到 共享 经 济 和 按 需 服务 的 要 求 ， 能 够 
最 优化 地 调度 出 租车 资源 ， 准 确 快速 地 响应 需求 ， 从 而 降低 用 户 群 体 的 沉淀 、 提 升 用 户 需求 。 


13.1.5 小结 
打车 软件 是 一 种 新 兴 的 手机 网 络 技 术 ， 体 现 着 网 络 化 在 交通 领域 的 发 展 。 自 它 出 现 以 来 
就 凭借 着 其 特有 的 快捷 、 便 利 等 特点 受到 社会 的 广泛 关注 ， 它 有 效 地 利用 了 时 间 ， 避 免 了 不 
必要 的 等 待 ， 因 此 越 来 越 多 的 消费 者 倾向 于 使 用 它 来 进行 打车 。 
Spark 技术 启用 了 内 存 分 布 数据 集 ， 除 了 能 够 提供 交互 式 查 询 外 ， 还 可 以 优化 迭代 工作 
负载 ， 能 快速 有 效 地 处 理 海量 数据 ， 为 Uber 公司 的 发 展 带 来 了 一 道 电光 ， 也 将 为 整个 行业 


G 图 13-7 引 自 于 https://spark-summit.org/2015/。 
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的 发 展 提供 了 强 有 力 的 技术 支持 。 


] 13.2 PubMatic 应 用 $park 提供 广告 服务 


作为 一 家 广告 服务 公司 ， 能 否 为 客户 提供 实时 的 分 析 解 决 方案 是 它 在 行业 中 立足 的 重要 
条 件 。 本 小 节 中 将 要 介绍 PubMatic 公司 应 用 Spark 平台 来 为 客户 提供 实时 的 广告 服务 及 业务 
分 析 处 理 服务 。 


13.2.1 公司 背景 特点 

我 们 首先 来 简单 了 解 一 下 PubMatic 公司 的 背景 和 特点 。PubMatic 公司 是 一 家 营销 自动 
化 软件 的 公司 ， 它 开发 了 业界 首 款 实时 分 析 解 决 方案 ， 这 些 方案 可 以 为 高 级 出 版 商 提供 相应 
的 广告 策略 。 

PubMatic 公司 的 广告 服务 器 能 实现 与 多 个 广告 网 络 的 信息 交互 ， 从 而 最 大 限度 地 帮助 出 
版 商 管理 广告 目录 并 找到 最 佳 的 广告 布局 。PubMatic 公司 还 提供 了 一 个 窗口 ， 以 便 用 户 跟踪 
所 有 的 广告 网 络 和 广告 配置 ， 通 过 工作 流 自 动 化 、 实 时 分 析 和 收益 管理 ， 使 出 版 商 产 生 更 明 
智 、 更 快速 的 决策 ， 从 而 简化 操作 、 推 动 收 入 。 

下 面 来 看 看 公司 的 产品 功能 图 ， 如 图 13-8S 所 示 。 


图 13-8 ”PubMatic 产品 功能 


从 上 图 中 我 们 可 以 看 出 ，PubMatic 公司 的 产品 在 个 人 计算 机 、 智 能 手机 以 及 平板 电脑 等 
方面 都 有 涉及 ， 在 不 同 的 设备 之 间 可 以 使 用 许多 不 同 的 功能 ， 例 如 通话 、 照 相 、 发 邮件 、 社 
交 服 务 、 编 辑 文字 等 。 


13.2.2 ”业务 需求 


在 当今 的 实时 广告 市 场 ， 出 版 商 需 要 可 操作 的 实时 数据 ， 使 他 们 做 出 更 加 明智 的 业务 决 
俩 。 而 出 版 商 一 直 多 数 时 候 被 提供 过 期 数据 的 分 析 解 决 方案 所 挑战 ， 而 PubMatic 公司 革命 


〇 图 13-8 引 自 于 http://www.pubmatic.com/about-us.php。 


260 


性 的 分 析 报 告 的 推出 ， 提 供 了 业界 唯一 的 实时 分 析 解 决 方案 。 
13.2.3 ”解决 方案 


为 了 实现 公司 的 业务 需求 ， 需 要 寻找 更 好 的 解决 方案 。 初 步 了 解 一 下 公司 具体 的 数据 人 处 
时 情况， 如 图 13-9 所 示 。 


Ne 


1 OT 每 月 处 理 的 投标 量 


22TB 每 日 处 理 的 数据 量 


9D0OBR+ 每 天 处 理 的 RTB 投标 量 
© 地 理 数 据 中 心 个 数 


图 13-9 ”公司 数据 处 理 情 况 


我 们 从 图 13-9 中 可 以 看 到 ，PubMatic 公司 有 6 个 地 理 数据 中 心 、 有 SPB 的 数据 需要 管 
理 、 每 天 大 约 需 要 投放 150 亿 个 广告 、 每 月 需要 处 理 10 万 亿 个 投标 、 每 天 需要 处 理 22TB 
的 数据 等 ， 这 些 数据 足以 显示 出 公司 的 数据 规模 越 来 越 庞大 ， 复 杂 程 度 也 越 来 越 高 。 因 此 ， 
公司 面临 着 以 下 的 挑战 。 

1) 硬件 成 本 不 断 增加 。 

2) 数据 流 越 来 越 复杂 。 

3) 需要 基数 估算 为 亿 种 的 不 同 用 户 。 

4) 多 重 分 组 集 。 

5) 需要 实时 、 批 量 地 分 析 不 同 流 量 的 数据 。 

为 了 解决 这 些 挑 战 ， 给 出 版 商 提供 可 操作 的 实时 数据 ，PubMatic 公司 决定 采用 Spark 平 
台 ， 原 因 主 要 有 以 下 几 点 。 

1) 有 效 的 相关 数据 流 。 

2) 优化 的 硬件 使 用 。 

3) 实时 与 批 处 理 的 统一 协议 栈 。 

4) 功能 强大 的 Scala API。 

接 下 来 看 Spark 基于 内 存 的 架构 图 ， 如 图 13-10 所 示 。 


J J 
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由 图 13-10 可 以 看 出 ，Spark 平 台 文 持 2 种 不 同 的 分 布 式 存储 系统 ，HDFS 和 S3， 不 同 的 
流 都 需要 在 内 存 中 进行 分 布 式 存储 。 


13.2.4 “方案 效果 


针对 公司 的 3 个 用 例 : 基数 估计 (Cardinality Estimation)、 多 阶段 工作 流 Multi 
Stage Workflows) 和 分 组 集 (Grouping sets)， 我 们 测试 了 在 不 同 平台 下 它们 各 自 的 性 能 
情况 。 

1. 技术 估计 

在 Spark 平 台 和 Hive 平 台 下 ， 完 成 基数 估计 (Cardinality Estimation ) 用例 的 性 能 对 比 情 
况 如 图 13-119 所 示 。 


3500 
3000 
2500 
号 2 国 Spark Hive 
1500 
1000 
S00 图 
0 
192 GB 384 GB 768 GB 
Size 


图 13-11 基数 估计 用 例 的 性 能 变化 


由 图 13-11 可 以 看 出 ， 当 内 存 大 小 为 192GB 时 ， 完 成 基数 估计 用 例 ， 在 Spark 平台 下 需 
要 500s， 而 在 Hive 平台 下 需要 1000s; 内 存 大 小 为 384GB 时 ，Spark 需要 1200s， 而 Hive 
需要 1700s; 内 存 大 小 为 768GB 时 ，Spark 需要 2000s， 而 Hive 需要 3100s。 由 此 可 以 推断 
出 ， 在 不 同 的 内 存 环境 下 ， 完 成 基数 估计 用 例 使 用 Spark 平台 比 使 用 Hive 平台 大 约 快 
25 驳 一 30 狗 的 时 间 。 

2. 多 阶段 工作 流 

在 Spark 平 台 和 Hive 平 台 下 ， 完 成 多 阶段 工作 流 (Multi Stage Workflows) 用 例 的 性 能 对 
比 情况 如 图 13-12S 所 示 。 
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13-12 多 阶段 工作 流 用 例 的 性 能 变化 
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图 13-11 引 自 于 https://spark-summit.org/2015/。 
图 13-12 引 自 于 https://spark-summit.org/2015/。 
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由 图 13-12 可 知 ， 当 内 存 大 小 为 192GB 时 ， 完 成 多 阶段 工作 流 用 例 在 Spark 平台 下 需 
要 550s， 而 在 Hive 平台 下 需要 850s; 内 存 大 小 为 384GB 时 ，Spark 需要 950s， 而 Hive 需 
要 1500s; 内 存 大 小 为 768GB 时 ，Spark 需要 1500s， 而 Hive 需要 2400s。 可 以 看 出 ， 完 成 
此 用 例 在 Spark 平台 下 比 在 Hive 平台 下 快 大约 85% 的 时 间 。 

3. 分 组 集 

在 Spark 平 台 和 Hive 平 台 下 ， 完 成 分 组 
13-139 所 示 。 
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图 13-13 分 组 集 用 例 的 性 能 变化 


由 图 13-13 可 以 得 出 ， 当 内 存 大 小 为 192GB 时 ， 完 成 分 组 集 用 例 在 Spark 平台 下 需要 
150s， 而 在 Hive 平台 下 需要 280s; 内 存 大 小 为 384GB 时 ，Spark 需要 2008， 而 Hive 需要 
400s; 内 存 大 小 为 768GB 时 ，Spark 需要 300s， 而 Hive 需要 700s。 采 用 Spark 平台 比 采 用 
Hive 平台 大 约 快 150% 的 时 间 。 
通过 对 比 以 上 3 个 用 例 在 使 用 Spark 平台 前 后 的 性 能 变化 ， 可 以 看 出 采用 Spark 技术 
后 ， 它 们 各 自 的 性 能 都 有 了 显著 的 提升 。 正 是 因为 Spark 是 基于 内 存 计算 的 ， 所 以 Spark 技 
术 能 实时 快速 地 处 理 公司 各 项 业务 ， 发 挥 公司 最 大 的 服务 功能 。 


上 


13.2.5 小结 


查询 速度 的 提高 对 广告 公司 来 讲 意义 重大 ， 因 为 公司 的 分 析 应 用 程序 ， 例 如 通过 视频 广 
告 浏览 数据 、 优 化 广告 位 置 等 ， 都 经 常 需要 经 过 运行 查询 、 等 竺 结果、 根据 结果 优化 查询 、 
然后 再 次 运行 等 步骤 ， 这 些 烦 琐 的 步骤 大 大 削减 了 查询 速度 ， 降 低 了 工作 效率 。 因 此 ， 大 多 
数 广告 公司 希望 采取 一 种 先进 有 效 的 技术 来 解决 这 个 问题 。 

Spark 具有 基于 内 存 计 算 、 同 时 支持 批 处 理 和 流 处 理 、 有 活跃 的 社区 活动 、 便 于 集成 到 
已 存在 Hadoop 生态 系统 以 及 运行 时 不 需要 MapReduce 等 特点 ， 因 此 采用 Spark 技术 可 以 很 
好 的 解决 以 上 问题 ， 为 广告 公司 带 来 巨大 的 好 处 。 

它 能 有 效 地 帮助 公司 快速 应 对 大 量 的 广告 业务 数据 ， 为 广告 客户 提供 实时 的 广告 服务 及 
业务 分 析 处 理 服务 等 ， 使 客户 获得 满意 的 解决 方案 。 相 信和 在 未 来 的 广告 服务 行业 中 ，Spark 
必 将 发 挥 着 举足轻重 的 作用 。 


〇 图 13-13 引 自 于 https://spark-summit.org/2015/。 
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13.3 本章 小 结 


本 章 中 介绍 了 打车 应 用 行业 “Uber 基于 Spark 的 私家 车 搭乘 服务 ”以 及 广告 服务 行业 
“PubMatic 应 用 Spark 提供 广告 服务 ”两 个 经 典 的 应 用 案例 。Uber 公司 和 PubMatic 公司 通过 
将 Spark 技术 应 用 到 自己 的 服务 领域 中 ， 可 以 快速 有 效 地 处 理 海量 的 数据 ， 为 客户 提供 更 加 
实时 准确 的 分 析 解 决 方案 ， 提 高 用 户 的 满意 度 ， 赢 得 更 多 消费 者 的 青睐 ， 从 而 在 竞争 中 获得 
显著 的 优势 。 
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Spark 是 一 个 高 效 的 分 布 式 计算 系统 ， 相 比 Hadoop， 它 在 性 能 上 比 
Hadoop 要 高 100 倍 。Spark 提 供 比 Hadoop 更 上 层 的 API， 同 样 的 算法 在 
Spark 中 实现 往往 只 有 Hadoop 的 1/10 或 者 1/100 的 长 度 。 

一 一 Databricks 公 司 联合 创始 人 、Spark 首 席 架 构 师 ” 辛 滥 


Spark 最 大 的 集群 来 自 腾讯 一 一 8000 个 节点 ， 单 个 Job 最 大 分 别 是 阿里 
巴巴 和 Databricks 一 一 1PB ， 震 撼 人 心 ! 同时， 截至 2015 年 6 月 ，Spark 的 
Contributort 比 2014 年 涨 了 3 售 ， 达 到 730 人 ; 总 代码 行 数 也 比 2014 年 涨 了 2 
倍 多 ， 达 到 40 万 行 。 

一 一 Spark Submit 2015 


本 书 以 Spark1.4 为 基础 ， 详 细 介 绍 了 Spark 技 术 的 概况 、 内 部 机 制 和 应 
用 情况 。 作 者 结合 国内 外 众多 资料 和 项 目 经 验 ， 力 求 深入 浅 出 地 讲解 Spark 
技术 的 生态 应 用 和 发 展 状况 ， 此 外 还 选取 了 Spark Summit 上 的 典型 案例 进 
行 解 析 ， 为 读者 全 面 展现 Spark 技 术 在 业界 的 应 用 情况 。 
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